关注博主不迷路,每日推送AI前沿内容!
在线体验:https://www.modelscope.cn/studios/gongjy/minimind
minimind训练了3个型号模型,最小仅需26M(0.02B),即可具备流畅的对话能力!
模型 (大小) | tokenizer长度 | 推理占用 | release | 主观评分(/100) |
---|---|---|---|---|
minimind-v1-small (26M) | 6400 | 0.5 GB | 2024.08.28 | 50’ |
minimind-v1-moe (4×26M) | 6400 | 1.0 GB | 2024.09.17 | 55’ |
minimind-v1 (108M) | 6400 | 1.0 GB | 2024.09.01 | 60’ |
该分析在一个带有Torch 2.1.2、CUDA 12.2和Flash Attention 2的RTX 3090 GPU上运行。
MiniMind-Dense(和Llama3.1一样)使用了Transformer的Decoder-Only结构,跟GPT-3的区别在于:
采用了GPT-3的预标准化方法,也就是在每个Transformer子层的输入上进行归一化,而不是在输出上。具体来说,使用的是RMSNorm归一化函数。
用SwiGLU激活函数替代了ReLU,这样做是为了提高性能。
像GPT-Neo一样,去掉了绝对位置嵌入,改用了旋转位置嵌入(RoPE),这样在处理超出训练长度的推理时效果更好。
Pretrain数据:Seq-Monkey通用文本数据集由多种公开来源的数据汇总清洗而成,包括网页、百科、博客、开源代码、书籍等。数据以JSONL格式整理,并经过严格筛选和去重,确保全面性、规模、可信性和高质量。数据总量约10B token,适合中文大语言模型的预训练。
SFT数据:匠数大模型SFT数据集是一个完整、格式统一、安全的大模型训练和研究资源。该数据集从网络上的公开数据源收集并整理了大量开源数据集,进行了格式统一和数据清洗,包含10M条数据的中文数据集和2M条数据的英文数据集。总量约3B token,适合中文大语言模型的SFT。
DPO数据:大约合并后共8万条dpo数据,这些人工标注的偏好数据均来自活字模型,可用于训练奖励模型,优化模型回复质量,使其更符合人类偏好。
更多数据集
:HqWu-HITCS/Awesome-Chinese-LLM 在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料。
对话测试效果
觉得文章有用有价值,关注码科,一起追随AI新进展,记得右下角点个在看呀!
► 顶配版SAM:由分割一切-升级至识别一切-再进化为感知一切
► 多模态大模型与深度学习高阶面试题:新颖、高频且有深度,数百道题覆盖六大专题
► 顶配版OCR工具!支持任何语言、任意表格、图表与文档的文本检测和识别工具