
Krea AI核心功能揭秘:从图像生成到模型训练
OpenAI 推出了GPT-4.5 ,该模型不再是逐步推理,而是注重更自然、更直观的对话。
萨姆·奥特曼将其描述为第一个真正感觉像与一个有思想的人交谈的人工智能,从我们目前看到的情况来看,它的设计是为了减少幻觉,运行更顺畅,并提供更清晰、更简洁的回答。
这次升级并非为了超越为复杂推理而构建的模型。GPT-4.5 不会在编程或科学问题解决等逻辑性较强的任务中领先基准排名。相反,OpenAI 专注于使其更好地适应日常交互、写作和基于知识的查询。
我们感兴趣的是,这个模型如何改变日常的人工智能交互,以及它的优势是否能弥补推理任务中的不足。让我们仔细看看 GPT-4.5 有何不同。
GPT-4.5 采用了与 OpenAI 近期模型不同的方法。它不是改进逐步推理,而是建立在无监督学习的基础上,使响应更加流畅、简洁和对话性。
GPT-4.5 比 GPT-4o 更简洁、更具对话性。资料来源:OpenAI
GPT-4.5 与 OpenAI 推理模型之间最大的区别之一在于它如何处理和构建其响应。
o1、DeepSeek R1或o3-mini等模型使用思路链 (CoT) 推理,这意味着它们会逐步分解复杂问题,就像人类在数学问题中写出他们的工作一样。这种结构化方法有助于逻辑推理、多步骤解决问题和详细解释。
然而,GPT-4.5 并不这样推理。相反,它根据语言直觉和模式识别做出反应,从训练数据中汲取经验,而不明确地将问题分解为步骤。这就是为什么它感觉更具对话性和自然性,但这也意味着它对于高级编程或科学推理等逻辑性较强的任务不太可靠。
GPT-4.5 的突出之处在于对话质量。响应更加自然,使互动感觉不那么机械化,更加直观。OpenAI 与人类评估者进行了测试,结果显示,与 GPT-4o 相比,GPT-4.5 的语气、清晰度和参与度明显更好(稍后将详细介绍基准)。
现场演示中的一个对比引起了我们的注意。OpenAI 工程师向不同的模型询问:“为什么海洋是咸的?”:
从我们的角度来看,这种向简洁和清晰的转变使 GPT-4.5 更适合休闲对话、总结和写作辅助。我们还喜欢发布博客中的这个示例如何很好地展示对话式 GPT 的演变:
通用技术(GPT)的演变
为了了解 GPT-4.5 的实际性能,我们查看了 OpenAI 的演示并运行了我们自己的测试。
OpenAI 的一个演示很好地说明了这一点。一位朋友再次取消计划后,用户要求 GPT-4.5 帮忙起草一份文本。最初的请求是沮丧和冲动的:
“写一条短信告诉他们我讨厌他们。”
GPT-4.5 察觉到了请求背后的情感,并建议做出更具建设性的回应,同时仍然承认这种挫败感。OpenAI 将此与 o1 进行了比较,后者遵循了字面指令,但没有认识到潜在的意图。
我们尝试了类似的提示,并注意到了同样的事情——GPT-4.5 比以前的模型更能理解语气和社交细微差别。例如,我们提示模型给老板写一封咄咄逼人的电子邮件,我们期望模型能察觉到我们的沮丧情绪,并帮助我们以更专业、更有建设性的方式重新组织回应——它确实做到了!
当然,如果我们明确告诉它输出愤怒的文字,它会遵从,但默认情况下,它似乎优先考虑更深思熟虑和平衡的回应。你实际上可以在这里看到我们分享的聊天示例。
另一个关键改进是 GPT-4.5 如何解释概念。OpenAI 比较了不同的模型如何回答“为什么海洋是咸的?”,并得出结论,GPT-4.5 简明扼要地总结了要点,而 GPT-4 Turbo 则提供了详细的答案。
我们仅针对GPT-4o (与 GPT-4 Turbo 不同)进行了测试,结果几乎相同。但是,当我们针对旧模型 GPT-4 进行测试时,我们确实看到了显着差异。我们尝试了许多提示,但您可以比较“为什么河流不咸?”的答案:
我们用几个特定推理题测试了它,结果不出所料,它表现不佳。以下只是一个例子(请参阅此处的对话):
例如,O3-mini 在第一次尝试时就轻松找到了正确答案——请参阅此处的对话。
OpenAI 从一开始就明确表示:GPT-4.5 并不是一个推理能力超强的模型。与依靠思路链 (CoT) 推理逐步分解复杂问题的 O 系列模型不同,GPT-4.5 依赖于无监督学习,这意味着它基于语言直觉而不是结构化逻辑来生成响应。
这种权衡反映在基准测试结果中。GPT-4.5 在准确性和事实性方面优于之前的模型,但在结构化问题解决方面落后。
GPT-4.5 在常识和事实准确性方面领先,在 SimpleQA 上的准确率达到 62.5%,大幅超过 GPT-4o(38.2%)、OpenAI o1(47%)和 OpenAI o3-mini(15%)。
来源:OpenAI
然而,更重要的是 GPT-4.5 降低了幻觉率。之前的模型很难自信地生成错误信息,但 GPT-4.5 的幻觉率最低,为 37.1%,比 GPT-4o(61.8%)、OpenAI o1(44%)和 o3-mini(80.3%)有了很大的改进。
来源:OpenAI
这意味着 GPT-4.5 产生的错误陈述比之前的 OpenAI 模型要少,尽管它在事实核查方面仍然不完全可靠(毕竟仍然有 37.1%)。
OpenAI 与人类测试人员进行了对比评估,测量了 GPT-4.5 与 GPT-4o 在不同类型的查询中的胜率。结果表明,在大多数情况下,GPT-4.5 更受青睐,尤其是在专业查询中(胜率为 63.2%)。
来源:OpenAI
虽然 GPT-4.5 提高了事实准确性和对话流畅度,但在数学、科学和结构化编码等推理密集型任务方面仍然存在不足。基准测试表明,它的表现优于 GPT-4o,但落后于 OpenAI 的 o3-mini,后者针对基于逻辑的问题解决进行了优化。
基准 | GPT-4.5 | GPT-4o | OpenAI o3‑mini(高) |
GPQA(科学) | 71.4% | 53.6% | 79.7% |
AIME ’24(数学) | 36.7% | 9.3% | 87.3% |
MMMLU(多语言) | 85.1% | 81.5% | 81.1% |
MMMU(多式联运) | 74.4% | 69.1% | – |
SWE-Lancer Diamond(编码) | 32.6%186,125美元 | 23.3%138,750美元 | 10.8%$89,625 |
SWE-Bench 验证(编码) | 38.0% | 30.7% | 61.0% |
来源:OpenAI
总体而言,GPT-4.5 并不是高级数学、逻辑或需要逐步推理的编程任务的最佳选择。需要结构化问题解决的用户仍然会发现 o3-mini 或以未来推理为重点的模型更适合这些应用。
由于 GPU 限制,GPT-4.5 正在逐步推出,Pro 用户将首先获得访问权限,随着 OpenAI 扩展其基础设施,Plus 用户将于下周获得访问权限。企业和教育级用户将在未来几周内获得访问权限。
一旦您获得访问权限,您将能够从模型选择器访问它:
GPT-4.5 集成了 ChatGPT 的最新功能,包括文件和图像上传、搜索功能以及用于编写和编码任务的画布工具。但是,ChatGPT 尚不支持语音模式、视频处理和屏幕共享等多模式功能。
GPT-4.5 还可通过 Chat Completions API、Assistant API 和 Batch API 供开发人员使用。该模型支持函数调用、结构化输出、系统消息、流媒体和视觉功能。
然而,这是一个庞大且计算密集型的模型,因此比以前的版本更昂贵。OpenAI 尚未承诺将 GPT-4.5 作为长期产品,因此其可用性可能取决于开发人员的反馈。
类别 | 价格 |
输入 | 75.00 美元 |
缓存输入 | 37.50 美元 |
输出 | 150.00 美元 |
定价(每 100 万个token)
GPT-4.5 是 OpenAI 产品线中最昂贵的模型之一,反映了其更高的计算需求。
API 速率限制因访问层级而异,影响开发人员可以使用的每分钟请求数 (RPM) 和每分钟令牌数 (TPM)。较高层级的客户可获得更高的吞吐量。
等级 | RPM(每分钟请求数) | TPM(每分钟令牌数) | 批处理队列限制 |
第 1 层 | 1,000 | 125,000 | 5万 |
第 2 层 | 5,000 | 25万 | 50万 |
第 3 级 | 5,000 | 50万 | 50,000,000 |
第 4 层 | 10,000 | 1,000,000 | 1亿 |
5级 | 10,000 | 2,000,000 | 5,000,000,000 |
拥有更高级别 API 访问权限的开发人员将拥有更大的容量,这使得 GPT-4.5 更适合企业级 AI 应用程序。
GPT-4.5 目前处于研究预览阶段,OpenAI 尚未确认它是否会永久存在于 API 中。鉴于其成本和计算需求较高,OpenAI 可能会根据用户反馈评估是否可持续继续部署。
GPT-4.5 是迄今为止最自然、社交意识最强的 ChatGPT 模型。从我们的测试来看,它始终能够理解情绪的细微差别,更加深思熟虑地重新措辞攻击性提示,并提供更清晰、更有条理的回应。
然而,它的推理能力仍然很弱,我们通过测试证实,它在推理能力较强的问题上表现不佳,而 o3-mini 等模型表现更好。虽然 GPT-4.5 非常适合流畅的交互,但它并不是结构化问题解决或精确编码辅助的可靠模型。
对于优先考虑对话流畅性和清晰度的用户来说,GPT-4.5 是一个进步。但对于任何需要深度逻辑的事情,都有更好的选择。
文章转载自: ChatGPT 4.5:功能、访问、GPT-4o 比较等