大模型 "蒸馏" 是什么？

论文《A Survey on Knowledge Distillation of Large Language Models》

https://arxiv.org/abs/2402.13116 这篇论文是干嘛的？这篇论文是关于“知识蒸馏”（Knowledge Distillation，简称 KD）在大型语言模型（Large Language Models，简称 LLMs）中的应用。

简单来说，知识蒸馏就像是让一个“聪明的大老师”（比如 GPT-4）教一个“普通的小学生”（比如开源模型 LLaMA），把大模型的聪明才智传给小模型，让小模型也能变聪明，而且更省资源、更容易用。

论文的作者们想给大家讲清楚三件事：

他们还特别提到了一种“数据增强”（Data Augmentation，简称 DA）的技术，说它在知识蒸馏里特别重要，能让小模型学得更好。

论文结构很清晰，分成了算法、技能和应用三个大块（这叫“三大支柱”），后面我会详细讲。

想象一下，GPT-4 这样的“大模型”超级聪明，能写文章、回答问题、甚至帮你解决问题，但它有个问题：太大了，太贵了，不是每个人都能用得上。就像一台超级豪华跑车，性能强但耗油多、一般人开不起。

而开源模型（比如 LLaMA、Mistral）呢，虽然免费、灵活，但本事没那么大，就像一辆普通小轿车。知识蒸馏的目标就是：

论文里还提到，这种技术还能让开源模型自己教自己变得更强（自改进），或者把大模型压缩得更高效。

知识蒸馏最早是用来把复杂的神经网络“压缩”成简单的小网络。比如原来一个大模型有几亿个参数，跑起来很费电脑，蒸馏后弄成一个小模型，参数少多了，但还能干差不多的事。

到了大型语言模型时代，知识蒸馏变得更高级了。现在不光是压缩模型，还要把大模型的“知识”和“能力”传给小模型。比如，GPT-4 能写诗、推理、聊天，知识蒸馏就想让小模型也学会这些本事。

论文里提到，知识蒸馏有三个主要作用（见图 1 位置：Fig. 1: KD plays three key roles in LLMs）：

数据增强听起来很高大上，其实就是“造数据”。

比如，你给 GPT-4 一点点“种子知识”（比如几个问题和答案），它就能生成成千上万类似的问答对。这些数据不是随便乱造，而是针对特定技能（比如数学推理）或领域（比如医学）量身定做的。有了这些数据，小模型就能拿来练习，学到大模型的本事。

这就像给小学生准备了一堆精选练习题，比随便找点题做效果好多了。

论文给了个通用流程，告诉你怎么把大模型的知识传给小模型（见图 4 位置：Fig. 4: An illustration of a general pipeline to distill knowledge）：

这个流程简单来说就是：

论文把知识蒸馏分成三大块（见图 3 位置：Fig. 3: Taxonomy of Knowledge Distillation of Large Language Models）：

这是讲怎么“教”。论文分了两步：

知识怎么挖出来（Knowledge）：
- 标注（Labeling）：给大模型一些问题，让它直接给出答案。比如，问“1+1=？”它回答“2”，这些问答对就是知识。
- 扩展（Expansion）：给大模型几个例子，它自己生成更多类似的问答。比如，给几个数学题，它能造出几百个类似的题。
- 整理（Data Curation）：大模型根据某个主题（比如医学）生成相关数据，再整理成教材。
- 特征提取（Feature）：从大模型的“脑子”里挖出深层信息（比如它怎么思考的），教给小模型。
- 反馈（Feedback）：小模型先试着回答，大模型看看对不对，给点建议。
- 自学（Self-Knowledge）：小模型自己生成答案，自己挑好的学。
怎么教小模型（Distillation）：
- 监督微调（Supervised Fine-Tuning）：直接拿大模型的答案当标准，让小模型模仿。
- 差异最小化（Divergence and Similarity）：让小模型的答案和大模型尽量靠近。
- 强化学习（Reinforcement Learning）：给小模型打分，答得好就奖励，慢慢变强。
- 排序优化（Rank Optimization）：教小模型学会挑最好的答案。