
01。
概述
MiniMind的目标是打造一个从零开始,仅需3小时即可训练完成的微型语言模型——MiniMind。这款模型的体积仅为26MB,大约是GPT-3的1/7000,轻巧到即便是最普通的个人GPU也能够轻松进行快速推理,甚至训练。MiniMind在DeepSeek-V2和Llama3的基础上进行了创新,涵盖了数据处理、预训练(pretrain)、微调(sft)、以及分布式训练(dpo)的完整流程,并整合了混合专家(MoE)模型技术。这个项目不仅是一个开源的模型,也是一个入门级的大型语言模型(LLM)教程,同时,它已经具备了一定的雏形。我们期望它能够激发更多的创新和探索。该项目包含:
- 公开MiniMind模型代码(包含Dense和MoE模型)、Pretrain、SFT指令微调、LoRA微调、DPO偏好优化的全过程代码、数据集和来源。
- 兼容transformers、accelerate、trl、peft等流行框架。
- 训练支持单机单卡、单机多卡(DDP、DeepSpeed)训练。训练过程中支持在任意位置停止,及在任意位置继续训练。
- 实现Openai-Api基本的chat接口,便于集成到第三方ChatUI使用(FastGPT、Open-WebUI等)。
Demo体验:
https://www.modelscope.cn/studios/gongjy/minimind

参考:
https://github.com/jingyaogong/minimind?tab=readme-ov-file