
一文讲透 AI Agent 与 AI Workflow 的区别和深度解析:从自动化到智能化的演进
数学推理,可能是AGI皇冠上的明珠…DeepSeekMath,一个7B模型但有逼近GPT-4的数学推理能力,在MATH基准榜单上超过一众30B~70B的开源模型。
数据采集过程是迭代式进行的,最后经过四次数据收集迭代,我们最终收集了35.5M个数学网页,共计120B Tokens,具体流程如下:
为了验证DeepSeekMath数据质量,我们采用相同的初始化模型和训练设置,分别基于多个数据集训练了150B Tokens,并对比最终模型效果。如下图,跟开源主流的数学数据集对比,DeepSeekMath数据训练的模型(红线)在多个数学基准上效果明显领先。在一个Epoch范围内(例如对于Proof-Pile-2是50B Tokens),DeepSeekMath数据效果更好,证明其数据质量更高。
下表展示更多榜单/数据集结果。简而言之,DeepSeekMath数据胜在:中英双语、更大规模、更高质量。
为了对DeepSeekMath-Base 7B的数学能力进行了全面评估,我们采取了三类实验:1)依靠CoT解决数学问题的能力;2)使用工具解决数学问题的能力;3)进行形式化定理证明的能力;4)更通用场景下的语言理解、推理和代码能力。下表首先展示了模型依靠CoT解决数学问题的能力。DeepSeekMath-Base 7B在所有八个基准测试中领先于开源基础模型(包括数学推理能力超强的Mistral 7B和最近发布的数学领域模型Llemma 34B)。值得注意的是,在竞赛级别的MATH数据集上,DeepSeekMath-Base超过了现有开源基础模型超过10%的绝对值,并且优于540B的闭源模型Minerva,但仅用了1/77的参数量。
其次来看下利用工具来解数学题的能力,即通过Prompt引导模型生成包含math和sympy等包的Python代码来解题。下表可以看出,DeepSeekMath-Base 7B明显超过CodeLlama 34B和Llemma 34B。
紧接着看下形式化定理证明能力,评估方式是将非形式化证明转为形式化证明。我们在miniF2F上进行评估,这是一个用于奥林匹克级别的数学基准测试。结果如下表所示,DeepSeekMath-Base 7B在自动定理证明方面,同样表现出强大的性能。
为了验证在更广泛场景下DeepSeekMath的能力,我们在大模型的语言理解、推理和代码的公开榜单上测试了模型。结果如下表,DeepSeekMath-Base 7B相比初始化的Coder模型,在MMLU和BBH上表现更佳,也就是说数学预训练有助于语言理解和推理能力的提升。
我们构建了一个中英数学SFT数据集,包括CoT、PoT和工具集成推理等三种格式,训练样本总数为776K。
我们采纳了一种高效的强化学习算法,Group Relative Policy Optimization (GRPO)。与传统的PPO算法相比,GRPO摒弃了对critic模型的依赖,转而基于组内样本得分计算baseline,显著减少了PPO训练所需要的计算资源。基于GRPO,我们探究了结果式监督、过程式监督以及迭代式强化学习的效果。模型效果下表评估的是模型未使用工具情况下,通过自身CoT解决数学题的能力。在MATH数学竞赛数据集上,我们的模型DeepSeekMath-RL 7B超过了7B~70B所有开源模型,以及大多数闭源模型(例如Inflection-2和Gemini Pro)13%的绝对值,非常接近GPT-4和Gemini Ultra性能。
其中值得注意的是,DeepSeekMath-RL 7B所有评估指标上都超过了基准模型DeepSeekMath-Instruct 7B,展示了GRPO强化学习训练的有效性。
代码预训练会提升模型数学能力吗?我们探究了不同训练方式对模型结果的影响,包括:1)General训练400B Tokens -> Math训练150B Tokens
2)Code训练400B Tokens -> Math训练150B Tokens
3)Math单阶段训练150B Tokens
4)Code和Math混合训练400B+150B Tokens
结果如下表,可以发现:代码训练可以提升模型工具进行数学推理的能力(w/ Tool Use),无论是在两阶段训练还是一阶段训练设置下。
惊喜的是,数学和代码混合预训练有助于数学推理(w/ Tool Use)和代码生成能力(HumanEval)的协同提升。
更多分析实验(例如:ArXiv论文对提高数学推理能力无效)见论文,阅读原文即可获取。
DeepSeek(深度求索),致力于探索AGI的本质,以开源汇聚更多的创造力和生产力。未来我们会持续发布更大规模、创新框架、以及复杂推理能力更好的模型!
点击阅读:深度求索开源国内首个MoE大模型,技术报告、模型权重同时发布
深度求索发布 67B 大模型,以「开源」加速 AGI 时代到来
可能是最强的开源代码大模型!深度求索发布 DeepSeek Coder