所有文章 > 日积月累 > 360自研gpt2-pro:探索 AI 推理应用场景新极限
360自研gpt2-pro:探索 AI 推理应用场景新极限

360自研gpt2-pro:探索 AI 推理应用场景新极限

360gpt2-pro 的推出与发展

360gpt2-pro 是一款由 360 自研的 AI 大模型,其推出标志着中国在大模型领域的又一次突破。这款模型在数学和逻辑推理任务上表现出色,并在国内外多项权威评测中取得了优异成绩。该模型的成功得益于其在数据合成、模型后训练和“慢思考”范式上的技术突破。

360gpt2-pro 整体架构

合成数据的优化

为了提升 360gpt2-pro 的推理能力,团队提高了数学与逻辑推理数据在训练集中的比例。然而,高质量数据的稀缺性成为了一大挑战。为此,360 团队通过指令合成和质量/多样性筛选等方法,有效扩充了训练数据集。

指令合成技术

指令合成是通过进化方式优化复杂指令的过程。团队采用 self-instruct、wizard 和基于 CFbench 多类约束的 auto-evol 方法,将数学问题按学科拆解为不同的子问题,进而生成新的指令。

指令合成示意图

质量与多样性筛选

通过训练 Reward Model 和 Critique Model,360 团队对指令和回答进行了严格的质量和多样性筛选,以确保训练数据的多样性和高质量。

回答质量过滤

模型后训练策略

360gpt2-pro 的后训练过程分为两个阶段:RFT 阶段与强化阶段。这种策略帮助模型生成多条高质量的推理路径,提升了模型的多样性与推理能力。

RFT 阶段的实施

在 RFT 阶段,团队首先训练了一个 Reference 模型,通过该模型生成并筛选多条推理路径,然后使用这些数据进行更大规模的模型训练。

模型后训练流程

“慢思考”范式

该范式利用蒙特卡洛树搜索 (MCTS) 来探索多样化的解决方案路径,加入 LLM 进行错误验证和纠错,模拟人类逐步推理和反思的过程,形成包含反思、验证、纠错和回溯的长思维链。

慢思考整个流程

反思机制的引入

在每个思维过程的末尾,360gpt2-pro 加入了反思机制,使模型能够自我反思并重新评估推理步骤,从而识别推理中的潜在错误。

逻辑推理专项优化

逻辑推理问题可以通过 Z3 求解器快速求解,这种观察帮助 360 团队实现了程序-大语言模型结合的逻辑推理问题高效求解。

模型效果与实际应用

360gpt2-pro 在多项数学评测中表现出色,其卓越的推理能力得到了业内的认可。以下是一些应用实例:

数学竞赛题的挑战

为了验证 360gpt2-pro 的智力水平,团队挑选了美国数学竞赛(AMC)中的 AIME 题目进行考验,该模型通过复杂推理逐步解决了问题。

数学竞赛题示例

破解密码的应用

在破解密码的任务中,360gpt2-pro 展现了强大的自我探索和推理能力,通过多步推理找到了正确的密码组合。

破解密码示例

复杂中文推理能力

360gpt2-pro 能够敏锐地捕捉题目中的隐含条件,展现出卓越的中文推理能力。例如,在“切西瓜”问题中,模型利用未明确规定的条件,给出了更为机智的解决方案。

复杂中文推理示例

360gpt2-pro 的市场影响与未来展望

360gpt2-pro 的推出不仅展示了 360 在 AI 领域的技术实力,也为国内外大模型的发展提供了新的可能性。未来,360 计划继续优化模型能力,推动 AI 在更多领域的应用。

FAQ

  1. 问:360gpt2-pro 的主要创新点是什么?

    • 答:360gpt2-pro 的主要创新点在于其合成数据优化、模型后训练和“慢思考”范式,这些技术使模型在数学和逻辑推理任务上表现出色。
  2. 问:如何评价 360gpt2-pro 在国际评测中的表现?

    • 答:360gpt2-pro 在多项国际评测中表现优异,尤其是在数学竞赛评测中超过了阿里巴巴的 o1 系列模型,展现了其卓越的推理能力。
  3. 问:360gpt2-pro 在实际应用中有哪些优势?

    • 答:360gpt2-pro 在数学推理、逻辑推理和中文推理等复杂问题的解决上表现突出,同时具备自我反思和纠错的能力,能够提高任务的准确性和效率。
  4. 问:未来 360gpt2-pro 的发展方向是什么?

    • 答:未来,360gpt2-pro 将继续优化模型能力,增强在多参数、多模态和多场景应用中的表现,推动 AI 在更多领域的实际应用。
#你可能也喜欢这些API文章!