2 月 25 日,DeepSeek 的“开源周”活动来到了第二天。继周一发布榨干显卡性能的 FlashMLA 后,今日 DeepSeek 再放大招:开源了首个用于 MoE 模型训练的通信库 DeepEP。
据官方介绍,DeepEP 是一个专为专家混合(MoE)和专家并行(EP)定制的通信库,提供了高吞吐量和低延迟的 all-to-all GPU 内核,可显著提升 MoE 模型在训练和推理过程中的数据交换效率。据悉,DeepEP 的核心亮点主要包括:
(1)高效优化的 all-to-all 通信;
(2)节点内和节点间均支持 NVLink 和 RDMA;
(3)用于训练和推理预填充的高吞吐量内核;
(4)用于推理解码的低延迟内核;
(5)原生 FP8 调度支持;
(6)灵活的 GPU 资源控制,用于计算-通信重叠。
目前,DeepEP 已在 GitHub 开源,项目地址为:https://github.com/deepseek-ai/DeepEP,上线 3 小时已收获 2.6k+ Star,且这一数字还在快速飙升。
而昨日,DeepSeek 首个开源的代码库为 FlashMLA,它是一个针对 Hopper GPU(即 H100,H200,H800)优化的高效 MLA 解码内核,专为处理可变长度序列而设计。有网友实测,它在处理速度和计算效率上接近 H800 显卡的理论极限(内存速度达每秒 3000GB,算力达 580 万亿次/秒)。目前,该项目也已在 GitHub 上获得 8.7k+ Star(https://github.com/deepseek-ai/FlashMLA)。