DeepSeek 技术分析 — (1) 混合专家
2025/03/03
DeepSeek 模型凭借在不损失准确率情况下显著提升训练成本和推理效率而备受关注。其沿用 Transformer 架构,从 V2 开始在多头注意力层采用低秩键值联合压缩技术减少 KV 缓存大小,在前馈网络层采用 Mixture - of - Experts(MoE)技术通过稀疏计算以经济成本训练强大模型。重点在于 DeepSeekMoE,它是 MoE 变体,有将专家细分激活及隔离共享专家两处变化,缓解了传统 TopK MoE 知识混合性和冗余性问题,实现更优性能。混合专家让 LLM 不同子网络吸收学习不同领域知识,使模型参数高度专业化且激活参数贡献高。尽管 DeepSeekMoE 性能接近理论上限,但仍有优化空间,如密集模型非边界、不同领域知识处理可差异化对待等。LLM 效率提升将推动 AI 繁荣,促使更多组织参与改进,降低 LLM API 成本,助力 AI 应用在各行业提高效率和处理知识任务。