漫谈DeepSeek及其背后的核心技术
2025/02/20
本文深入探讨了DeepSeek大模型的核心技术,从公司背景、模型能力、训练与推理成本到核心技术细节进行了全面分析。DeepSeek由幻方量化于2023年7月在杭州成立,其推出的V3模型在性能上已与OpenAI的GPT-4o媲美,训练成本不到600万美元,API定价远低于国内其他头部厂商。DeepSeek-V3采用了自研的MLA(多头潜在注意力)机制和无辅助损失的MoE(Mixture of Experts)架构,显著减少了KV缓存和训练成本。训练框架HAI-LLM支持多种并行策略,优化了通信和计算效率。推理部署采用预填充和解码分离策略,确保高吞吐量和低延迟。文章还指出,DeepSeek的成功在于其深厚的技术积累和对基础研究的重视,其技术创新将推动AI行业的快速且低成本迭代。