DeepSeek 第三天开源的 DeepGEMM
2025/03/08
在DeepSeek开源周的第三天,团队发布了DeepGEMM,这是一个专为Hopper架构GPU优化的矩阵乘法库。DeepGEMM支持标准矩阵计算和混合专家模型(MoE)计算,为DeepSeek-V3/R1的训练和推理提供支持,并在Hopper GPU上实现了1350+ FP8 TFLOPS的高性能。该库的核心代码简洁高效,仅约300行,且在大多数矩阵尺寸下性能优于现有解决方案。DeepGEMM支持三种数据排列方式,包括标准排列和两种专为混合专家模型设计的特殊排列(连续排列和掩码排列),并采用即时编译技术,无需在安装时进行编译。