2 月 26 日,DeepSeek “开源周” 进行到了第三天。在开源 FlashMLA、DeepEP 两款代码库后,今天上午 9 点 DeepSeek 宣布开源又一代码库:DeepGEMM。
DeepGEMM 是一个专为 FP8(8 位浮点数)通用矩阵乘法(GEMM)优化的高效计算库,具有细粒度缩放功能,支持普通和混合专家(MoE)分组的 GEMM。整体来说,DeepGEMM 的核心亮点包括:
(1)在 Hopper GPU 上可实现高达 1350+ FP8 TFLOPS 的算力;
(2)无严重依赖性,像教程一样简洁;
(3)完全即时编译;
(4)核心逻辑仅约 300 行,性能却优于许多专家调优的内核;
(5)支持稠密矩阵和两种 MoE 矩阵布局。
可以看出,DeepGEMM 的最大亮点在于它的简洁性与高效性。该库基于 CUDA 编写,在安装过程中无需编译,通过轻量级即时编译模块在运行时动态编译所有内核。更值得一提的是,DeepGEMM 的核心内核函数仅约 300 行代码,相比主流矩阵计算库更加轻量级,使其成为理解 Hopper 架构下 FP8 矩阵运算与优化技术的理想学习资源。
尽管 DeepGEMM 设计精简,但其性能在多种矩阵形状下仍可与专业级优化库媲美,甚至超越:官方测试表明,DeepGEMM 在 DeepSeek-V3/R1 推理任务中展现了出色的计算效率。同时 DeepSeek 也表示,当前 DeepGEMM 在部分矩阵形状下仍有优化空间,欢迎开发者贡献 PR 以进一步提升性能。(DeepGEMM 项目地址:https://github.com/deepseek-ai/DeepGEMM)
最后还有一个消息,有知情人士透露 DeepSeek 正在加速推出其 R2 人工智能模型,最初计划是在 5 月发布,但目前正在努力尽快推出。