所有文章 > 当前标签:DeepSeek DeepGEMM
DeepSeek开源周第三天DeepGEMM
DeepSeek开源周第三天DeepGEMM
2025/02/26
DeepGEMM 是一个为 NVIDIA Hopper 架构 GPU 设计的高性能 FP8 矩阵乘法(GEMM)库,专为 DeepSeek-V3/R1 模型的训练和推理优化。其核心逻辑仅约 300 行代码,却能在 H800 GPU 上实现高达 1350+ TFLOPS 的计算性能,超越许多专业调优库。设计结合细粒度缩放、两级累加机制和 Just-In-Time(JIT)编译,确保高效性能和数值稳定性,支持密集型和混合专家(MoE)矩阵运算。源码中关键设计包括共享内存与流水线优化、TMA 多播与异步屏障、两级精度累加,充分利用 Hopper 架构特性。性能测试显示小批量场景下可实现高达 2.7 倍加速,大批量接近理论峰值 1358 TFLOPS,内存带宽优化至 2.6 TB/s。适用于常规深度学习和 MoE 模型,与 DeepSeek 的 DeepEP 库配合优化通信效率,通过开源推动 AI 训练和推理硬件利用率极限。
搜索、试用、集成国内外API!
幂简集成API平台已有 4581种API!
API大全
搜索文章