Claude 3.7 Sonnet：功能、访问、基准测试等

Anthropic 刚刚发布了他们近期最重要的公告，即Claude 3.7 Sonnet的发布。尽管版本号仅表明了渐进式的进展，但我们认为这是对Claude 3.5 Sonnet 的重大升级。

首先，Claude 3.7 Sonnet 引入了思考模式，让我们可以看到模型的思维过程。这意味着 Anthropic 终于进入了推理模型领域，并且根据基准测试，它是OpenAI 的 o3-mini、DeepSeek-R1和Grok 3 的有力竞争对手。

其次，Claude 3.7 Sonnet 只需按一下按钮即可在推理模式和通才模式之间切换（稍后会详细介绍）。虽然 Anthropic 声称他们有“不同的理念”，但这种转变反映了在基于聊天的 LLM 中统一用户体验的趋势日益增长。Grok 3 已经以这种方式工作，Sam Altman 最近宣布 ChatGPT 将遵循类似的方向。

令我们失望的是，思维模式被锁定在付费墙后面。考虑到推理模型正变得越来越普遍，当你已经可以通过 Grok、DeepSeek、Qwen 甚至 ChatGPT 访问免费（尽管有时有限制）版本时，很难证明这一决定的合理性。

让我们了解一下Claude 3.7 Sonnet的要点。

什么是Claude 3.7 Sonnet？

Claude 3.7 Sonnet 是 Anthropic 最新的 AI 模型，定位为推理、编码和现实世界问题解决方面的重大进步。最大的变化是 Claude 3.7 Sonnet 现在支持思考模式，让我们可以看到模型的逐步推理过程。让我们看看它是如何工作的：

推理模型变得越来越重要和普遍，我们可以看到原因。根据人类经济指数，如果你看下面的图表，你会注意到 37.2% 的用户依赖 Claude 来解决编码和数学问题。这告诉我一件事——强大的推理模型可以带来真正的商业价值，尤其是在企业环境中人工智能的采用率仍然很低的情况下。

同时，Claude 3.7 不仅仅是一个推理模型，它还是一个混合模型。我们可以在思维模式（用于结构化推理任务）和标准聊天模式（用于一般对话、写作和总结）之间切换。

Claude 3.7 Sonnet vs. Claude 3.5 Sonnet

Claude 3.7 Sonnet 的升级幅度远大于版本号所暗示的升级幅度。基准测试数据证实，它在推理、编码和实际任务执行方面均优于 Claude 3.5 Sonnet。

软件工程绩效

Claude 3.7 Sonnet 在软件工程方面表现出明显优势，在 SWE-bench Verified 中的准确率得分为 62.3%，与 Claude 3.5 Sonnet 的 49.0% 相比有显著提升。使用自定义支架（结构化提示或附加上下文，有助于引导模型响应以得出更准确的解决方案）时，准确率可提高到 70.3%，使其成为此类别中表现最佳的模型。

来源：Anthropic

不同模型版本之间的准确率提升了近 13%，这并非小幅改进。这表明 Claude 3.7 Sonnet 已针对更好地理解和执行编程相关任务进行了优化。对于依赖 Claude 进行软件工程、调试或自动化的用户来说，此次升级带来了切实的改变。

代理工具的使用

代理工具使用性能是 Claude 3.7 Sonnet 超越其前代产品的另一个方面。在零售相关任务中，其准确率达到 81.2%，高于 Claude 3.5 Sonnet 的 71.5%。在航空相关任务中，其准确率达到 58.4%，比前一版本提高了近 10 个百分点。

来源：Anthropic

总体基准

在所有基准测试中，最大的进步来自于扩展思维模式，这使得 Claude 3.7 在复杂的推理任务中表现得更高。依赖人工智能进行结构化工作流程、编码或解决问题的用户会发现 Claude 3.5 和 Claude 3.7 之间存在明显差异，尤其是在使用扩展思维时。

来源：Anthropic

这一进展大部分源自Claude 的延伸思考，让我们进一步了解一下。

Claude 的延伸思考

启用扩展思考模式后，Claude 在最终确定答案之前所采取的推理步骤数量会增加。开发人员可以通过设置思考预算来微调此过程，该预算定义了模型在解决问题时可以使用多少个标记。如下面的 AIME 2024 性能图所示，随着分配更多标记，准确率会提高，并呈现对数趋势。

来源：Anthropic

这种方法反映了人类的认知努力：对于简单的任务，快速回答就足够了，但对于复杂的任务，更深入的分析会带来更好的结果。Claude 现在可以决定何时暂停、重新评估和改进其推理，而不是默认立即做出反应。

扩展思维模式最有趣的方面之一是 Claude 的推理过程对用户可见。然而，这一特性也带来了一些挑战。虽然它提供了对人工智能推理的洞察，但所显示的思维过程可能并不总是与模型实际做出决策的方式完全一致。“忠实度问题”——人工智能自我报告的想法是否准确地代表了其内部机制——仍然是一个悬而未决的研究问题。

Claude 3.7 Sonnet 进行长期迭代推理的能力在 OSWorld 和 Pokémon Red 游戏等评估中得到了检验。例如，在 Pokémon Red 中，Claude 3.7 Sonnet 的游戏进度远高于之前的版本，能够完成多个里程碑，而之前的模型在游戏早期就停滞不前了。

来源：Anthropic

Claude 3.7 Sonnet 基准测试

我们已经看到了 Claude 3.7 Sonnet 与其早期版本相比的表现如何，但它与 OpenAI 的 o3-mini、DeepSeek-R1 或 Grok 3 相比如何？

从更新的基准来看，Claude 3.7 Sonnet 已成为性能最好的模型之一，尤其是在推理密集型任务、编码和代理工具使用方面。

推理和数学

在研究生水平推理 (GPQA Diamond) 中，Claude 3.7 Sonnet 在标准模式下得分为 68.0%，在扩展思维模式下得分为 84.8%，是此类别中最强大的模型之一。它的表现远远优于 OpenAI 的 o1 (78.0%) 和 DeepSeek-R1 (71.5%)，而 Grok 3 Beta (84.6%) 仅略胜一筹。

基准	Claude 3.7 Sonnet (Standard)	Claude 3.7 Sonnet (Extended Thinking)	OpenAI o1	OpenAI o3-mini (high)	DeepSeek R1	Grok 3 Beta
GPQA Diamond (Graduate-level reasoning)	68.0％	84.8％	78.0％	79.7％	71.5％	84.6％
AIME 2024 (High school math competition)	23.3%	80.0％	83.3％	87.3％	79.8％	93.3％
Math Problem-Solving (MATH 500)	82.2％	96.2％	96.4％	97.9％	97.3％	–

测试高中数学竞赛问题的AIME 2024基准测试也显示出类似的趋势。Claude 3.7 Sonnet 比以前的版本有了很大的飞跃，在启用扩展思维的情况下得分为 80.0%。虽然它以微弱优势击败了 DeepSeek-R1（79.8%），但仍落后于 OpenAI 的 o3-mini（87.3%）和 Grok 3 Beta（93.3%）。

在数学问题解决（MATH 500）方面，Claude 3.7 Sonnet 达到了 96.2%，与 OpenAI 的 o3-mini（97.9%）和 DeepSeek R1（97.3%）非常接近。

编码和代理工具的使用

Claude 3.7 Sonnet 在编码基准测试中取得了最大的进步。在 SWE-bench Verified（评估软件工程任务中的 AI 模型）中，Claude 3.7 Sonnet 得分为 62.3%，使用自定义支架后上升到 70.3%。这使其远远领先于 OpenAI 的 o1（48.9%）和 o3-mini（49.3%），以及在设计时考虑到编码的 DeepSeek R1（49.2%）。这证实了 Claude 3.7 现在是编程相关任务的最佳 AI 模型之一。

基准	Claude 3.7 Sonnet (Standard)	Claude 3.7 Sonnet (Custom Scaffold)	OpenAI o1	OpenAI o3-mini (high)	DeepSeek R1
SWE-bench Verified (Coding)	62.3%	70.3％	48.9％	49.3％	49.2％
TAU-bench Retail (Tool Use)	81.2％	–	73.5％	–	–
TAU-bench Airline (Tool Use)	58.4％	–	54.2％	–	–

除了编码之外，Claude 3.7 Sonnet 在代理工具使用方面也处于领先地位，使其成为自动化和工作流程执行的不二之选。在 TAU-bench（测试 AI 在结构化环境中与外部工具交互的能力）上，Claude 3.7 在零售相关任务中的得分为 81.2%，超过了 OpenAI o1（73.5%）。在航空相关任务中，Claude 3.7 达到 58.4%，再次超越 OpenAI o1（54.2%）。

这表明 Claude 3.7 非常适合商业应用程序和结构化工作流程，使其成为希望将 AI 融入决策和运营流程的企业用户的有力选择。

如何访问 Claude 3.7 Sonnet

Claude 3.7 Sonnet 可通过多种渠道获得，包括 Anthropic 的 Web 界面、Claude 在各种应用中的集成以及开发人员的 API 访问。虽然该模型是一项重大升级，但它的可用性也有一些限制——尤其是如果你想使用思维模式，目前它被锁定在付费层级后面。

Web 和应用程序访问

对于普通用户，可以通过 Anthropic 的官方网站 ( claude.ai ) 和 Claude 应用程序访问 Claude 3.7 Sonnet。它提供免费套餐，但有限制：

免费用户可以访问 Claude 3.7 Sonnet 进行写作、总结和一般问答等基本任务，但思考模式被禁用。
Claude Pro 用户（每月 20 美元的付费计划）可以完全访问思考模式，以及更高的消息限制和高峰使用时段的优先访问权。

要启用思考模式，您需要从模型下拉菜单中单击“扩展” ：

Claude 3.7 Sonnet API 访问

开发人员可以使用 Anthropic 的 API 将 Claude 3.7 Sonnet 集成到他们的应用程序中，该 API 可通过Anthropic 的开发人员门户访问。该 API 支持基于代币使用情况的按需付费定价模型。

以下是 Anthropic API 产品概述：

特征	Claude 3.7 Sonnet	Claude 3.7 Sonnet	Claude 3.5 Haiku	Claude 3 Opus	Claude 3 Haiku
描述	我们最智能的模型	我们之前最智能的模型	我们最快的型号	适用于复杂任务的强大模型	最快、最紧凑的型号，可实现近乎即时的响应
优势	最高级别的智能和能力，具有可切换的扩展思维	高水平的智力和能力	飞速发展的情报	顶级智力、流利程度和理解力	快速、准确的目标表现
多种语言	是的	是的	是的	是的	是的
想象	是的	是的	是的	是的	是的
延伸思考	是的	不	不	不	不
API 型号名称	Claude-3-7-十四行诗-20250219	升级版本：claude-3-5-sonnet-20241022先前版本：claude-3-5-sonnet-20240620	Claude-3-5-俳句-20241022	Claude-3-作品-20240229	Claude-3-俳句-20240307
比较延迟	快速地	快速地	最快的	中等速度	最快的
上下文窗口	20万	20万	20万	20万	20万
最大输出	Normal: 8192 tokens Extended thinking:64000 tokens	8192 tokens	8192 tokens	4096 tokens	4096 tokens
成本（输入/输出/百万tokens）	$3.00 / $15.00	$3.00 / $15.00	0.80 美元 / 4.00 美元	$15.00 / $75.00	0.25 美元 / 1.25 美元
训练数据截断	2024 年 10 月	2024 年 4 月	2024 年 7 月	2023 年 8 月	2023 年 8 月

来源：Anthropic

确保始终检查最新的 API 定价。

结论

Anthropic 刚刚推出了 Claude 3.7 Sonnet，这是该公司近期最大的举措，该模型最终将其带入了推理 AI 领域。根据基准测试，我们可以看到，它是 OpenAI 的 o3-mini、DeepSeek-R1 和 Grok 3 的有力竞争对手，在编码、结构化问题解决和代理工具使用方面具有强大的性能。

能够在通用模式和推理模式之间切换使其更加通用，但将思维模式锁定在付费墙后面感觉像是一个失误，尤其是在有免费替代品可用的情况下。不过，Claude 3.7 是一个重大进步。

Claude 3.7 Sonnet：功能、访问、基准测试等

文章目录

什么是Claude 3.7 Sonnet？

Claude 3.7 Sonnet vs. Claude 3.5 Sonnet

软件工程绩效

代理工具的使用

总体基准

Claude 的延伸思考

Claude 3.7 Sonnet 基准测试

推理和数学

编码和代理工具的使用

如何访问 Claude 3.7 Sonnet

Web 和应用程序访问

Claude 3.7 Sonnet API 访问

结论

最新文章