刚刚，DeepSeek 宣布开源 DeepGEMM：核心内核代码仅约 300 行！

2 月 26 日，DeepSeek “开源周” 进行到了第三天。在开源 FlashMLA、DeepEP 两款代码库后，今天上午 9 点 DeepSeek 宣布开源又一代码库：DeepGEMM。

DeepGEMM 是一个专为 FP8（8 位浮点数）通用矩阵乘法（GEMM）优化的高效计算库，具有细粒度缩放功能，支持普通和混合专家（MoE）分组的 GEMM。整体来说，DeepGEMM 的核心亮点包括：

（1）在 Hopper GPU 上可实现高达 1350+ FP8 TFLOPS 的算力；
（2）无严重依赖性，像教程一样简洁；
（3）完全即时编译；
（4）核心逻辑仅约 300 行，性能却优于许多专家调优的内核；
（5）支持稠密矩阵和两种 MoE 矩阵布局。

可以看出，DeepGEMM 的最大亮点在于它的简洁性与高效性。该库基于 CUDA 编写，在安装过程中无需编译，通过轻量级即时编译模块在运行时动态编译所有内核。更值得一提的是，DeepGEMM 的核心内核函数仅约 300 行代码，相比主流矩阵计算库更加轻量级，使其成为理解 Hopper 架构下 FP8 矩阵运算与优化技术的理想学习资源。

尽管 DeepGEMM 设计精简，但其性能在多种矩阵形状下仍可与专业级优化库媲美，甚至超越：官方测试表明，DeepGEMM 在 DeepSeek-V3/R1 推理任务中展现了出色的计算效率。同时 DeepSeek 也表示，当前 DeepGEMM 在部分矩阵形状下仍有优化空间，欢迎开发者贡献 PR 以进一步提升性能。（DeepGEMM 项目地址：https://github.com/deepseek-ai/DeepGEMM）

最后还有一个消息，有知情人士透露 DeepSeek 正在加速推出其 R2 人工智能模型，最初计划是在 5 月发布，但目前正在努力尽快推出。