所有文章 > 当前标签:DeepSeek 技术分析
DeepSeek 技术分析 — (3)多 Token
DeepSeek 技术分析 — (3)多 Token
2025/03/03
GPT 和 Llama 等大型语言模型都是使用下一个标记预测损失进行训练的。这些模型通过执行下一个标记预测任务来学习大型文本语料库 x1,... xT。正式来说,学习目标是最小化交叉熵损失: 其中 Pθ 是我们正在训练的大型语...
DeepSeek 技术分析 — (2)多头潜在注意力
DeepSeek 技术分析 — (2)多头潜在注意力
【AI驱动】 多头注意力机制是 Transformer 模型的核心组件,通过并行计算捕获序列中 token 之间的全局依赖关系,打破 RNN 和 CNN 的序列约束,推动语言模型发展。多查询注意力机制通过共享键和值提高增量推理速度,但可能降低质量并导致训练不稳定。分组查询注意力机制通过一组注意力头共享键和值的投影矩阵,在一定程度上缓解了这一问题。DeepSeek-V2 引入的多头潜在注意力(MLA)机制,通过低秩键值联合压缩技术减少 KV 缓存大小,显著降低内存占用并提高推理效率。MLA 核心是对键和值进行低秩联合压缩,消除推理时间键值缓存的瓶颈,同时采用解耦的 RoPE 策略以兼容低秩 KV 压缩。测试表明,MLA 在性能上优于传统多头注意力机制(MHA),且所需的 KV 缓存量明显小于 MHA。
2025/03/03
DeepSeek 技术分析 — (1) 混合专家
DeepSeek 技术分析 — (1) 混合专家
【AI驱动】 DeepSeek 模型凭借在不损失准确率情况下显著提升训练成本和推理效率而备受关注。其沿用 Transformer 架构,从 V2 开始在多头注意力层采用低秩键值联合压缩技术减少 KV 缓存大小,在前馈网络层采用 Mixture - of - Experts(MoE)技术通过稀疏计算以经济成本训练强大模型。重点在于 DeepSeekMoE,它是 MoE 变体,有将专家细分激活及隔离共享专家两处变化,缓解了传统 TopK MoE 知识混合性和冗余性问题,实现更优性能。混合专家让 LLM 不同子网络吸收学习不同领域知识,使模型参数高度专业化且激活参数贡献高。尽管 DeepSeekMoE 性能接近理论上限,但仍有优化空间,如密集模型非边界、不同领域知识处理可差异化对待等。LLM 效率提升将推动 AI 繁荣,促使更多组织参与改进,降低 LLM API 成本,助力 AI 应用在各行业提高效率和处理知识任务。
2025/03/03
搜索、试用、集成国内外API!
幂简集成API平台已有 4581种API!
API大全
搜索文章