12天就出新款！这款AI模型价格只要1/5，性能却直逼旗舰版？

2026-02-18 00:00:00

文章转载自"淘工位"

颠覆认知！中端AI模型竟能吊打旗舰版？

还在为高昂的AI使用成本发愁吗？每次调用都心疼钱包？企业部署AI系统时，总在性能和价格之间艰难抉择？

告诉你个好消息！Anthropic刚刚放了个大招——在旗舰模型Claude Opus 4.6发布仅仅12天后，就推出了全新的中档模型Claude Sonnet 4.6！

最让人震惊的是：这款新模型的价格保持不变，但性能却直逼价格高出五倍的旗舰版！这简直就是AI界的"性价比之王"啊！

💡 Sonnet 4.6到底有多强？实测数据告诉你！

先来看看硬核数据！在SWE-bench Verified这个测试真实软件编码能力的基准中：

Sonnet 4.6得分79.6%
Opus 4.6得分80.8%
GPT-5.2得分略低于Sonnet 4.6

看到了吗？差距只有1.2个百分点！但价格呢？Sonnet 4.6的定价是每百万token输入3美元、输出15美元，与Sonnet 4.5完全相同！

更惊人的还在后面！在代理式金融分析任务中：

Sonnet 4.6以63.3%的成绩领先所有竞争对手
Opus 4.6得分60.1%
GPT-5.2得分59.0%

是的，你没看错！中端模型在某些任务上竟然超越了旗舰模型！

在办公任务的GDPval-AA Elo评分中：

Sonnet 4.6达到1633分
Opus 4.61606分
GPT-5.21462分

这意味着什么？过去需要花大价钱买旗舰模型才能完成的任务，现在用中档模型就能搞定！对于每天要处理数百万token的企业来说，这简直是天大的好消息！

当然，Opus 4.6在某些高复杂度领域仍然保持优势：

在终端编码任务Terminal-Bench 2.0中，Opus 4.6得分65.4%，Sonnet 4.6为59.1%
在代理式搜索BrowseComp中，Opus 4.6达到84.0%，Sonnet 4.6为74.7%
在新颖问题解决测试ARC-AGI-2中，Opus 4.6得分68.8%，Sonnet 4.6为58.3%

不过，对于大多数生产环境来说，这个差距已经缩小到完全可以接受的程度了！

🌟 计算机使用能力：Sonnet 4.6的最大亮点！

Sonnet 4.6最让人惊艳的进步出现在计算机使用能力上！在OSWorld-Verified基准测试中：

Sonnet 4.6得分72.5%
Sonnet 4.5得分61.4%
GPT-5.2得分38.2%

这个提升幅度太大了！什么是计算机使用能力？就是AI能像人类一样操作计算机——通过鼠标点击、键盘输入来与软件交互，而不需要API接口！

还记得前阵子火遍全网的豆包手机助手吗？它的底层UI-TARS模型在OSWorld基准上取得了47.5%的成绩，已经能够完成除了支付以外的所有操作！

以此作为参考，Sonnet 4.6的实际表现将会多么惊艳，你想象一下！

这项能力为什么重要？因为它打开了最广泛的企业应用场景！一个能够直接看屏幕并与之交互的模型，可以在不构建定制连接器的情况下，自动操作所有可交互的系统！

Anthropic在发布时提到，早期用户已经看到接近人类水平的表现，能够完成复杂的电子表格任务和多步骤网页表单！

保险科技公司Pace的CEO贾米·考夫表示："Sonnet 4.6在我们复杂的保险计算机使用基准测试中达到94%的成绩，是所有测试过的Claude模型中最高的！它以我们之前未见过的方式推理失败原因并自我纠正！"

⚠️ 安全性大幅提升！抵御提示注入攻击

你可能听说过提示注入攻击——恶意行为者在网页中隐藏指令来劫持模型！

Anthropic在公告中明确表示：Sonnet 4.6在抵御此类攻击方面比Sonnet 4.5有重大改进！

对于需要浏览网页和与外部系统交互的企业代理来说，这种安全防护是必须的！现在你可以更放心地部署AI系统了！

💰 价格只要五分之一！企业成本直降80%

这才是最震撼的部分！Sonnet 4.6到底有多便宜？

外媒报道，一些早期用户表示：原本企业需要花五倍的钱才能买到的能力，现在用Sonnet 4.6就能获得差不多的效果！

这意味着什么？运营成本可能直接降到原来的五分之一！而工作质量几乎不受影响！

数据分析平台Hex Technologies的CTO，同时也是Anthropic联合创始人凯特琳-科尔格罗夫说："公司正在将大部分流量迁移到Sonnet 4.6！通过自适应思考和高努力模式，除了最困难的分析任务外，我们在所有任务上都看到了Opus级别的性能，且配置更高效灵活！以Sonnet的价格，这将大幅降低工作成本！"