三连发！1.7B小模型把大厂干懵了~

原创热爱AI的 NLP前沿 2024年11月04日 11:55

周末，huggingface、meta、amd 均开源了SLM，最优秀的是huggingface家的smolLm2，同规模能打过qwen2.5、llama3.2

AMD-OLMO系列

hf: https://huggingface.co/collections/amd/amd-olmo-6723e7d04a49116d8ec95070

OLMO 完全开源系列，AMD-OLMo 是由 AMD 在 AMD Instinct™ MI250 GPU 上从头开始训练的 1B 语言模型系列。所使用的训练代码基于 OLMo。发布了预训练模型、监督微调模型和 DPO 对齐模型，具体如下：

AMD-OLMo-1B：在 Dolma v1.7 的一个子集上预训练，该子集包含 1.3 T token。
AMD-OLMo-1B-SFT：在 Tulu V2 数据集上进行监督微调（第一阶段），然后在 OpenHermes-2.5、WebInstructSub 和 Code-Feedback 数据集上进行（第二阶段）。
AMD-OLMo-1B-SFT-DPO：在 UltraFeedback 数据集上使用直接偏好优化（DPO）与人类偏好对齐。

具体效果不贴了，OLMO系列的模型对标的是tinyllama这些

Huggingface-SmolLM2系列

hf: https://huggingface.co/collections/HuggingFaceTB/smollm2-6723884218bcda64b34d7db9

SmolLM2 是一款紧凑型语言模型家族，提供三种规模：135M, 360M，1.7B参数。它们能够解决各种任务，同时足够轻量，可在设备上运行。

1.7B 版本在指令遵循、知识、推理和数学方面相较于其前身 SmolLM1-1.7B 取得了显著进步。它使用了 11T 标记进行训练，数据集组合包括 FineWeb-Edu、DCLM、The Stack，以及我们精心制作的新的数学和编码数据集，这些数据集将很快发布。我们通过使用公共数据集和自制的精心制作的数据集进行监督微调（SFT）来开发指令版本。然后，我们应用了直接偏好优化（DPO）和 UltraFeedback。

效果：

Meta-MobileLM系列

hf: https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95
paper: https://arxiv.org/pdf/2402.14905

MobileLLM 是一种自回归语言模型，它利用优化的 Transformer 架构，专门为资源受限的设备应用而设计。MobileLLM 集成了多项关键技术，包括：(1) SwiGLU activation function, (2) deep and thin architectures, (3) embedding sharing, (4) grouped-query attention. 。MobileLLM-125M/350M 在零样本常识推理任务上，相较于之前的 125M/350M SoTA 模型，实现了 2.7%/4.3% 的准确率提升。在我们的更新版本中，我们进一步证明了我们的设计理念能够有效扩展到更大的模型，MobileLLM-600M/1B/1.5B 模型取得了 SoTA 结果。

这里对比的也是一些老模型，训练耗时如下：

微信扫一扫
关注该公众号

继续滑动看下一个