周末,huggingface、meta、amd 均开源了SLM, 最优秀的是huggingface家的smolLm2,同规模能打过qwen2.5、llama3.2
OLMO 完全开源系列,AMD-OLMo 是由 AMD 在 AMD Instinct™ MI250 GPU 上从头开始训练的 1B 语言模型系列。所使用的训练代码基于 OLMo。发布了预训练模型、监督微调模型和 DPO 对齐模型,具体如下:
具体效果不贴了,OLMO系列的模型对标的是tinyllama这些
SmolLM2 是一款紧凑型语言模型家族,提供三种规模:135M, 360M,1.7B参数。它们能够解决各种任务,同时足够轻量,可在设备上运行。
1.7B 版本在指令遵循、知识、推理和数学方面相较于其前身 SmolLM1-1.7B 取得了显著进步。它使用了 11T 标记进行训练,数据集组合包括 FineWeb-Edu、DCLM、The Stack,以及我们精心制作的新的数学和编码数据集,这些数据集将很快发布。我们通过使用公共数据集和自制的精心制作的数据集进行监督微调(SFT)来开发指令版本。然后,我们应用了直接偏好优化(DPO)和 UltraFeedback。
效果:
MobileLLM 是一种自回归语言模型,它利用优化的 Transformer 架构,专门为资源受限的设备应用而设计。MobileLLM 集成了多项关键技术,包括:(1) SwiGLU activation function, (2) deep and thin architectures, (3) embedding sharing, (4) grouped-query attention. 。MobileLLM-125M/350M 在零样本常识推理任务上,相较于之前的 125M/350M SoTA 模型,实现了 2.7%/4.3% 的准确率提升。在我们的更新版本中,我们进一步证明了我们的设计理念能够有效扩展到更大的模型,MobileLLM-600M/1B/1.5B 模型取得了 SoTA 结果。
这里对比的也是一些老模型,训练耗时如下:
微信扫一扫
关注该公众号