
文心一言写代码:代码生成力的探索
360gpt2-pro 是一款由 360 自研的 AI 大模型,其推出标志着中国在大模型领域的又一次突破。这款模型在数学和逻辑推理任务上表现出色,并在国内外多项权威评测中取得了优异成绩。该模型的成功得益于其在数据合成、模型后训练和“慢思考”范式上的技术突破。
为了提升 360gpt2-pro 的推理能力,团队提高了数学与逻辑推理数据在训练集中的比例。然而,高质量数据的稀缺性成为了一大挑战。为此,360 团队通过指令合成和质量/多样性筛选等方法,有效扩充了训练数据集。
指令合成是通过进化方式优化复杂指令的过程。团队采用 self-instruct、wizard 和基于 CFbench 多类约束的 auto-evol 方法,将数学问题按学科拆解为不同的子问题,进而生成新的指令。
通过训练 Reward Model 和 Critique Model,360 团队对指令和回答进行了严格的质量和多样性筛选,以确保训练数据的多样性和高质量。
360gpt2-pro 的后训练过程分为两个阶段:RFT 阶段与强化阶段。这种策略帮助模型生成多条高质量的推理路径,提升了模型的多样性与推理能力。
在 RFT 阶段,团队首先训练了一个 Reference 模型,通过该模型生成并筛选多条推理路径,然后使用这些数据进行更大规模的模型训练。
该范式利用蒙特卡洛树搜索 (MCTS) 来探索多样化的解决方案路径,加入 LLM 进行错误验证和纠错,模拟人类逐步推理和反思的过程,形成包含反思、验证、纠错和回溯的长思维链。
在每个思维过程的末尾,360gpt2-pro 加入了反思机制,使模型能够自我反思并重新评估推理步骤,从而识别推理中的潜在错误。
逻辑推理问题可以通过 Z3 求解器快速求解,这种观察帮助 360 团队实现了程序-大语言模型结合的逻辑推理问题高效求解。
360gpt2-pro 在多项数学评测中表现出色,其卓越的推理能力得到了业内的认可。以下是一些应用实例:
为了验证 360gpt2-pro 的智力水平,团队挑选了美国数学竞赛(AMC)中的 AIME 题目进行考验,该模型通过复杂推理逐步解决了问题。
在破解密码的任务中,360gpt2-pro 展现了强大的自我探索和推理能力,通过多步推理找到了正确的密码组合。
360gpt2-pro 能够敏锐地捕捉题目中的隐含条件,展现出卓越的中文推理能力。例如,在“切西瓜”问题中,模型利用未明确规定的条件,给出了更为机智的解决方案。
360gpt2-pro 的推出不仅展示了 360 在 AI 领域的技术实力,也为国内外大模型的发展提供了新的可能性。未来,360 计划继续优化模型能力,推动 AI 在更多领域的应用。
问:360gpt2-pro 的主要创新点是什么?
问:如何评价 360gpt2-pro 在国际评测中的表现?
问:360gpt2-pro 在实际应用中有哪些优势?
问:未来 360gpt2-pro 的发展方向是什么?