所有文章 > AI驱动 > DeepSeek 技术分析 — (3)多 Token
DeepSeek 技术分析 — (3)多 Token

DeepSeek 技术分析 — (3)多 Token

GPT 和 Llama 等大型语言模型都是使用下一个标记预测损失进行训练的。这些模型通过执行下一个标记预测任务来学习大型文本语料库 x1,… xT。正式来说,学习目标是最小化交叉熵损失:

其中 Pθ 是我们正在训练的大型语言模型,为了最大化 xt+1 作为下一个未来标记的概率,给定过去标记的历史 xt:1 = xt, …, x1。

多标记预测

通过多标记预测实现更好更快的大型语言模型 — 2024这篇论文通过实现多标记预测任务概括了上述内容,其中在训练语料库的每个位置,指示模型使用独立的输出头并行预测 n 个未来标记。这转化为交叉熵损失:

本文做了几个实验来找到最佳的n(需要预测多少个未来 token),同时验证了在训练生成或推理任务的语言模型时,多 token 预测可以提高下一个 token 预测的性能(准确性)。

本文还证明了多标记预测会导致模型能力和泛化行为发生质的变化。其背后的原因可能是因为多标记预测减轻了训练时间教师强制和推理时间自回归生成之间的分布差异。

DeepSeek 中的多标记预测

DeepSeek V3 采用了上述论文中提到的多 Token 预测的主要思想,但有所改变,即按顺序预测更多 Token,并在每个预测深度保留完整的因果链。

DeepSeek 中的多标记预测变体

DeepSeek 中的多 token 预测采用链式结构,而非原论文中的并行结构。输入 token [t1,t2,t3,t4] 经过主模型的 transformer 块,然后经过主模型的输出头,生成下一个预测 token t5。同时,输入 token [t1,t2,t3,t4](主模型 transformer 块的输出)的表示将传递到 MTP 模块,并与新输入 token 的 embedding[t2,t3,t4, t5(新预测)] 相结合,帮助生成额外的 token t6……在 DeepSeek-V3 中,模型预测接下来的2 个token。

在本次DeepSeek-V3 技术报告中,作者证明了多令牌预测在大多数情况下可以提高性能。

总结

多标记预测是否对所有情况都有改善?通过多标记预测实现更好、更快的大型语言模型 — 2024本文表明,多标记预测可能会为多项选择和基于可能性的基准引入回归。使用 MTP 的 DeepSeek 中的 MMLU(大规模多任务语言理解)回归(67.5 -> 66.6)符合这一结论。

#你可能也喜欢这些API文章!