刚刚,Anthropic 发布 Claude Sonnet 5:最能「打」的 Sonnet,性能一路逼近 Opus 4.8

📅 2026/7/2 13:04:29 👁️ 阅读次数 📝 编程学习
刚刚,Anthropic 发布 Claude Sonnet 5:最能「打」的 Sonnet,性能一路逼近 Opus 4.8

几个月前还得靠更大、更贵的模型才能跑通的自主任务,如今一个 Sonnet 就够了。

一觉醒来,Anthropic又有新动作了!

如果要给过去两年的 AI 发展挑一个关键词,「Agent」大概会是很多人脱口而出的答案。

而要追溯这股浪潮的起点,绕不开的正是 Anthropic 的 Sonnet 系列——从 Claude Sonnet 3.5、3.6 一路到 3.7,正是这几代模型,第一次让广大开发者真切见识到了大模型在编码工具调用上的惊人潜力。对不少人来说,所谓的「Agentic AI 时代」,就是从 Sonnet 开始的。

不过,最近一段时间,Agentic 能力上最亮眼的进步,几乎都被体量更大、价格也更贵的 Opus 系列包揽了。相比之下,Sonnet 一度显得有点「跟不上」。

现在,情况变了。

就在刚刚,Anthropic 正式发布了新一代Claude Sonnet 5,并把它定位为「迄今为止最具 Agentic 能力的 Sonnet 模型」。官方的说法相当直接:它能自己制定计划,调用浏览器、终端等工具,并在相当程度上自主运行——而这些活儿,就在几个月前,还是只有更大、更贵的模型才玩得转。

一句话概括这次更新的核心:Sonnet 5 把自己和 Opus 4.8 之间的差距,大幅缩小了——性能逼近后者,价格却低了一大截。

性能:一只脚已经踏进了 Opus 的门槛

相比前代 Sonnet 4.6,Sonnet 5 在几个开发者最在意的维度上都有实质性提升:推理、工具调用、编码,以及知识工作

官方放出的评测对比里,特意把一个「更强、更通用」的 Opus 4.8 也拉进来做参照。结果是:Sonnet 5 的表现已经相当接近 Opus 4.8,而在价格上却便宜得多。换句话说,过去要拿到这个水准的能力,你得掏 Opus 的钱;现在,Sonnet 的预算就能办到。

Sonnet 5 在多项评测上的得分,与 Sonnet 4.6 和 Opus 4.8(作为参考的更通用模型)的对比。更完整的评测细节,可参见官方的 Claude Sonnet 5 System Card。

值得一提的是,这次 Anthropic 还顺手更新了两处旧成绩的口径:Humanity’s Last Exam 更换了评分模型,Sonnet 4.6 的分数被重新校准为 34.6%(无工具)和 46.8%(有工具);OSWorld-Verified 的评测方式也做了调整,以更贴近真实场景,Sonnet 4.6 被更新为 78.5%。这也是它们和当初发布博客里数字对不上的原因。

「Effort」档位:在成本和性能之间自由拨动

这次更新里,一个特别实用的点在于effort(努力程度)档位

Anthropic 在两个 Agentic 评测上做了成本 – 性能曲线对比:一个是 Agentic 搜索评测BrowseComp,另一个是计算机操作评测OSWorld-Verified

结论很清晰:Sonnet 5 相对 Sonnet 4.6 是全面碾压——同样的努力档位下,前者的曲线稳稳压在后者之上。而 Opus 4.8 依旧是追求更高准确率时的首选,但两者之间的落差已经今非昔比。

不同 effort 档位下的成本 – 性能曲线。过去,最强的 Sonnet(4.6)和 Opus 4.8 之间隔着一道明显的鸿沟;如今 Sonnet 5 和 Opus 4.8 落到了同一条区间里——Sonnet 5 以更低成本提供惊人能力,Opus 4.8 则以更高价格换取更高准确率。xhigh 代表「超高」努力档位。

更妙的是,这不是一道非此即彼的单选题。在 Sonnet 5 和 Opus 4.8 之间,用户可以通过调节 effort 档位,为自己的项目找到成本与性能之间那个刚刚好的平衡点。想省钱就往下调,想要极致准确率就往上顶,甚至可以一路拉到 xhigh。

合作伙伴怎么说:它开始「自己把事情做完」了

在正式发布前,一批早期合作伙伴已经上手试用。而他们反馈里最一致的一点是:Sonnet 5 明显比前代更「能自己把活儿干完」。

有测试者提到,让它去排查一个 bug,它没有被额外提示,就主动写出了复现测试、实现了修复,甚至还把改动暂存起来,反过来验证「没有这次修改,bug 是不是真的会复现」——全部在一轮之内跑完。

也有团队直接甩给它一个两段式任务:先更新 Salesforce 里的账户层级,再向企业联系人群发一封发布公告。结果它端到端跑通了。而这类活儿,在过去常常会在中途卡住。

在编码这一块,多位合作方不约而同地强调了一个词——「brownfield(存量代码)」。有测试者形容,Sonnet 5 最擅长的恰恰是那些没人愿意碰的角落:竞态条件、隐藏的测试、陈年老坑。它能把一个故障顺藤摸瓜追到真正的根因,然后交付一个持久的修复,而不是头痛医头地打个补丁。

当然,「能做」之外,「知道什么时候不做」同样重要。低代码平台 Lovable 就点出了另一面:一个知道什么时候该说「不」的模型,和一个知道怎么把东西造出来的模型,同等重要——而 Sonnet 5 能干净、稳定地拒绝不安全请求。

从法律科技公司 Eve,到数据库厂商 ClickHouse,再到跑保险工作流的 Pace,不同领域的合作方给出的评价殊途同归:用更少的步骤,把更难的事做完,而且价格划算。

安全性:更能拒绝,更少幻觉,也更「诚实」

在部署前的安全评估中,Sonnet 5 整体上是对 Sonnet 4.6 的一次进步。

具体来看,在 Agentic 安全方面,它更擅长拒绝恶意请求,也更能在prompt injection(提示注入)攻击中抵抗被劫持。同时,它的幻觉率谄媚(sycophancy)率都低于 Sonnet 4.6——换句话说,它不那么容易一本正经地胡说,也不那么容易顺着你说好话。

在一项覆盖面极广的自动化行为审计中(用于检测「配合滥用」「欺骗」等各类错误对齐行为),Sonnet 5 的整体得分更低(也就是更安全)。不过要客观地说,它在这项评估上的错误对齐率,仍然高于更强的 Opus 4.8 和 Claude Mythos Preview。

自动化行为审计中的错误对齐行为发生率。Sonnet 5 的整体错误对齐率低于 Sonnet 4.6,但高于 Mythos Preview 和 Opus 4.8。

至于外界最关心的网络安全能力,Anthropic 说得很明白:他们并没有刻意用网络安全任务去训练 Sonnet 5。它能干一些常规的、无害的网络任务,但在开发软件漏洞利用(exploit)这类潜在危险的评估上,表现明显弱于 Opus 4.8 和 Mythos 5。

一个直观的例子是与 Mozilla 合作开发的评测——测试模型为 Firefox 147 中的漏洞开发 exploit(相关漏洞均已在 Firefox 148 修复)。两个 Sonnet 模型都从未成功开发出可用的 exploit(均为 0.0%);Sonnet 5 只是「部分成功」的比例略高于 4.6。官方还特意补了一句:这点变化更可能来自通用智能的提升,而非专门训练。

测量各模型为 Firefox 147 漏洞开发 exploit 的成功率。两个 Sonnet 模型均无法开发出可用 exploit(0.0%),网络安全能力显著弱于 Opus 4.8 和 Mythos 5。

尽管如此,由于 Sonnet 5 在这类任务上比前代略强,Anthropic 还是默认为它开启了网络安全防护。这套能实时检测并拦截危险网络用途的防护,与 Claude Opus 4.7、4.8 上的一致(因为整体网络安全风险被判定为较低,它的严格程度不及随 Fable 5 上线的那一套)。

价格与上线:全平台今日可用,还有限时优惠

好消息是,Claude Sonnet 5今天已经在所有套餐上线

  • 它是Free 和 Pro 套餐的默认模型,Max、Team、Enterprise 用户同样可用;
  • 也已进入Claude CodeClaude Platform;开发者可通过 Claude API 使用模型名claude-sonnet-5调用。

定价方面,Anthropic 拿出了一份颇有诚意的限时价:

阶段输入(每百万 tokens)输出(每百万 tokens)
限时引入价(至 2026 年 8 月 31 日)$2$10
标准价(此后)$3$15
参考:Opus 4.8$5$25

也就是说,在优惠期内,Sonnet 5 的实际成本比曲线图里画的还要更低。此外,Anthropic 还在 Chat、Cowork、Claude Code 和 Claude Platform 上统一上调了 rate limit,专门用来消化高 effort 档位带来的更高 token 消耗——档位随你选,额度管够。

这里有一个小坑值得开发者留意:Sonnet 5 换用了新的 tokenizer(和当初 Opus 4.7 的做法类似),它改变了模型处理文本的方式以提升性能。代价是,同样一段输入可能会被切成更多 token——大约是原来的1.0~1.35 倍,具体取决于内容类型。官方称,限时价的设定,正是为了让从 4.6 迁移到 5 的过程「大致成本中性」。

写在最后

从 3.5 到 5,Sonnet 系列走了一条挺清晰的路:它始终是那个「把 Agentic 能力普及给大多数开发者」的角色。

而 Sonnet 5 这一步的意义在于——它第一次让「接近 Opus 的能力」和「Sonnet 的价格」这两件看似矛盾的事,落到了同一个模型身上。对于绝大多数需要长链条、多步骤、能自主收尾的 Agentic 任务来说,这可能正是那个「性价比甜点」。

那么问题来了:如果一只 Sonnet 就能把复杂任务端到端做完,你还会为哪些场景,专门去请出更贵的 Opus?欢迎在评论区聊聊你的选择。