DeepSeek 技术分析 — (2)多头潜在注意力
2025/03/03
多头注意力机制是 Transformer 模型的核心组件,通过并行计算捕获序列中 token 之间的全局依赖关系,打破 RNN 和 CNN 的序列约束,推动语言模型发展。多查询注意力机制通过共享键和值提高增量推理速度,但可能降低质量并导致训练不稳定。分组查询注意力机制通过一组注意力头共享键和值的投影矩阵,在一定程度上缓解了这一问题。DeepSeek-V2 引入的多头潜在注意力(MLA)机制,通过低秩键值联合压缩技术减少 KV 缓存大小,显著降低内存占用并提高推理效率。MLA 核心是对键和值进行低秩联合压缩,消除推理时间键值缓存的瓶颈,同时采用解耦的 RoPE 策略以兼容低秩 KV 压缩。测试表明,MLA 在性能上优于传统多头注意力机制(MHA),且所需的 KV 缓存量明显小于 MHA。