360自研gpt2-pro：探索 AI 推理应用场景新极限

360gpt2-pro 的推出与发展

360gpt2-pro 是一款由 360 自研的 AI 大模型，其推出标志着中国在大模型领域的又一次突破。这款模型在数学和逻辑推理任务上表现出色，并在国内外多项权威评测中取得了优异成绩。该模型的成功得益于其在数据合成、模型后训练和“慢思考”范式上的技术突破。

360gpt2-pro 整体架构

为了提升 360gpt2-pro 的推理能力，团队提高了数学与逻辑推理数据在训练集中的比例。然而，高质量数据的稀缺性成为了一大挑战。为此，360 团队通过指令合成和质量/多样性筛选等方法，有效扩充了训练数据集。

指令合成是通过进化方式优化复杂指令的过程。团队采用 self-instruct、wizard 和基于 CFbench 多类约束的 auto-evol 方法，将数学问题按学科拆解为不同的子问题，进而生成新的指令。

指令合成示意图

通过训练 Reward Model 和 Critique Model，360 团队对指令和回答进行了严格的质量和多样性筛选，以确保训练数据的多样性和高质量。

回答质量过滤

360gpt2-pro 的后训练过程分为两个阶段：RFT 阶段与强化阶段。这种策略帮助模型生成多条高质量的推理路径，提升了模型的多样性与推理能力。

在 RFT 阶段，团队首先训练了一个 Reference 模型，通过该模型生成并筛选多条推理路径，然后使用这些数据进行更大规模的模型训练。

模型后训练流程

该范式利用蒙特卡洛树搜索 (MCTS) 来探索多样化的解决方案路径，加入 LLM 进行错误验证和纠错，模拟人类逐步推理和反思的过程，形成包含反思、验证、纠错和回溯的长思维链。

慢思考整个流程

在每个思维过程的末尾，360gpt2-pro 加入了反思机制，使模型能够自我反思并重新评估推理步骤，从而识别推理中的潜在错误。

逻辑推理问题可以通过 Z3 求解器快速求解，这种观察帮助 360 团队实现了程序-大语言模型结合的逻辑推理问题高效求解。

360gpt2-pro 在多项数学评测中表现出色，其卓越的推理能力得到了业内的认可。以下是一些应用实例：

为了验证 360gpt2-pro 的智力水平，团队挑选了美国数学竞赛（AMC）中的 AIME 题目进行考验，该模型通过复杂推理逐步解决了问题。

数学竞赛题示例

在破解密码的任务中，360gpt2-pro 展现了强大的自我探索和推理能力，通过多步推理找到了正确的密码组合。

破解密码示例

360gpt2-pro 能够敏锐地捕捉题目中的隐含条件，展现出卓越的中文推理能力。例如，在“切西瓜”问题中，模型利用未明确规定的条件，给出了更为机智的解决方案。

复杂中文推理示例

360gpt2-pro 的推出不仅展示了 360 在 AI 领域的技术实力，也为国内外大模型的发展提供了新的可能性。未来，360 计划继续优化模型能力，推动 AI 在更多领域的应用。

问：360gpt2-pro 的主要创新点是什么？
- 答：360gpt2-pro 的主要创新点在于其合成数据优化、模型后训练和“慢思考”范式，这些技术使模型在数学和逻辑推理任务上表现出色。
问：如何评价 360gpt2-pro 在国际评测中的表现？
- 答：360gpt2-pro 在多项国际评测中表现优异，尤其是在数学竞赛评测中超过了阿里巴巴的 o1 系列模型，展现了其卓越的推理能力。
问：360gpt2-pro 在实际应用中有哪些优势？
- 答：360gpt2-pro 在数学推理、逻辑推理和中文推理等复杂问题的解决上表现突出，同时具备自我反思和纠错的能力，能够提高任务的准确性和效率。
问：未来 360gpt2-pro 的发展方向是什么？
- 答：未来，360gpt2-pro 将继续优化模型能力，增强在多参数、多模态和多场景应用中的表现，推动 AI 在更多领域的实际应用。