找工位
空间入驻
小程序

12天就出新款!这款AI模型价格只要1/5,性能却直逼旗舰版?

2026-02-18 00:00:00
文章转载自"淘工位"

颠覆认知!中端AI模型竟能吊打旗舰版?

还在为高昂的AI使用成本发愁吗?每次调用都心疼钱包?企业部署AI系统时,总在性能和价格之间艰难抉择?

告诉你个好消息!Anthropic刚刚放了个大招——在旗舰模型Claude Opus 4.6发布仅仅12天后,就推出了全新的中档模型Claude Sonnet 4.6

最让人震惊的是:这款新模型的价格保持不变,但性能却直逼价格高出五倍的旗舰版!这简直就是AI界的"性价比之王"啊!

💡 Sonnet 4.6到底有多强?实测数据告诉你!

先来看看硬核数据!在SWE-bench Verified这个测试真实软件编码能力的基准中:

  • Sonnet 4.6得分79.6%
  • Opus 4.6得分80.8%
  • GPT-5.2得分略低于Sonnet 4.6

看到了吗?差距只有1.2个百分点!但价格呢?Sonnet 4.6的定价是每百万token输入3美元、输出15美元,与Sonnet 4.5完全相同!

更惊人的还在后面!在代理式金融分析任务中:

  • Sonnet 4.6以63.3%的成绩领先所有竞争对手
  • Opus 4.6得分60.1%
  • GPT-5.2得分59.0%

是的,你没看错!中端模型在某些任务上竟然超越了旗舰模型!

在办公任务的GDPval-AA Elo评分中:

  • Sonnet 4.6达到1633分
  • Opus 4.61606分
  • GPT-5.21462分

这意味着什么?过去需要花大价钱买旗舰模型才能完成的任务,现在用中档模型就能搞定!对于每天要处理数百万token的企业来说,这简直是天大的好消息!

当然,Opus 4.6在某些高复杂度领域仍然保持优势:

  • 在终端编码任务Terminal-Bench 2.0中,Opus 4.6得分65.4%,Sonnet 4.6为59.1%
  • 在代理式搜索BrowseComp中,Opus 4.6达到84.0%,Sonnet 4.6为74.7%
  • 在新颖问题解决测试ARC-AGI-2中,Opus 4.6得分68.8%,Sonnet 4.6为58.3%

不过,对于大多数生产环境来说,这个差距已经缩小到完全可以接受的程度了!

🌟 计算机使用能力:Sonnet 4.6的最大亮点!

Sonnet 4.6最让人惊艳的进步出现在计算机使用能力上!在OSWorld-Verified基准测试中:

  • Sonnet 4.6得分72.5%
  • Sonnet 4.5得分61.4%
  • GPT-5.2得分38.2%

这个提升幅度太大了!什么是计算机使用能力?就是AI能像人类一样操作计算机——通过鼠标点击、键盘输入来与软件交互,而不需要API接口!

还记得前阵子火遍全网的豆包手机助手吗?它的底层UI-TARS模型在OSWorld基准上取得了47.5%的成绩,已经能够完成除了支付以外的所有操作!

以此作为参考,Sonnet 4.6的实际表现将会多么惊艳,你想象一下!

这项能力为什么重要?因为它打开了最广泛的企业应用场景!一个能够直接看屏幕并与之交互的模型,可以在不构建定制连接器的情况下,自动操作所有可交互的系统!

Anthropic在发布时提到,早期用户已经看到接近人类水平的表现,能够完成复杂的电子表格任务和多步骤网页表单!

保险科技公司Pace的CEO贾米·考夫表示:"Sonnet 4.6在我们复杂的保险计算机使用基准测试中达到94%的成绩,是所有测试过的Claude模型中最高的!它以我们之前未见过的方式推理失败原因并自我纠正!"

⚠️ 安全性大幅提升!抵御提示注入攻击

你可能听说过提示注入攻击——恶意行为者在网页中隐藏指令来劫持模型!

Anthropic在公告中明确表示:Sonnet 4.6在抵御此类攻击方面比Sonnet 4.5有重大改进!

对于需要浏览网页和与外部系统交互的企业代理来说,这种安全防护是必须的!现在你可以更放心地部署AI系统了!

💰 价格只要五分之一!企业成本直降80%

这才是最震撼的部分!Sonnet 4.6到底有多便宜?

外媒报道,一些早期用户表示:原本企业需要花五倍的钱才能买到的能力,现在用Sonnet 4.6就能获得差不多的效果!

这意味着什么?运营成本可能直接降到原来的五分之一!而工作质量几乎不受影响!

数据分析平台Hex Technologies的CTO,同时也是Anthropic联合创始人凯特琳-科尔格罗夫说:"公司正在将大部分流量迁移到Sonnet 4.6!通过自适应思考和高努力模式,除了最困难的分析任务外,我们在所有任务上都看到了Opus级别的性能,且配置更高效灵活!以Sonnet的价格,这将大幅降低工作成本!"
云存储公司Box的CTO本·喀什也表示:"Sonnet 4.6在真实企业文档的重度推理问答中,比Sonnet 4.5的表现提高了15个百分点!"

🚀 100万token超长上下文!企业级应用无压力

Sonnet 4.6配备了100万token的超长上下文窗口!这意味着什么?

  • 可以容纳整个代码库
  • 可以处理复杂的法律文件
  • 可以分析数十篇研究论文

Anthropic声称模型能够在整个上下文中有效推理!他们通过Vending-Bench Arena这个基准测试来展示Sonnet 4.6的有效推理能力!

这个测试模拟模型运营企业的能力,不同AI模型相互竞争以获得最大利润!结果如何?

在没有人类提示的情况下,Sonnet 4.6发展出一种新颖策略:在前十个模拟月份中大量投资产能,支出远超竞争对手,然后在最后阶段急转弯专注于盈利能力!

最终成绩:模型在365天模拟结束时的余额约为5700美元,而Sonnet 4.5约为2100美元!策略能力提升了近三倍!

🌍 全球扩张!Anthropic开启印度市场

Anthropic正处于上市前最关键的阶段,他们不仅要发布模型,还要借着模型去扩张业务!

Sonnet 4.6发布当天,印度IT巨头Infosys宣布与Anthropic合作,构建企业级agent,将Claude模型集成到Infosys的Topaz AI平台中,服务于银行、电信和制造业!

与此同时,Anthropic也在印度的班加罗尔开设了首个印度办事处!印度现在占全球Claude使用量的约6%,仅次于美国!

更有意思的是,Anthropic的进步导致了最近几天软件股的大规模抛售!就连业绩大涨的微软,也经历了股价暴跌!

投资者越来越担心AI对这些业务的潜在颠覆,Sonnet 4.6可能会加剧这种不安的氛围!

🎁 免费升级!开发者福利来了

最让人惊喜的是!Anthropic将其免费层级默认升级到了Sonnet 4.6!开发者可以通过Claude API直接调用!

这意味着什么?即使你是个人开发者或初创公司,也能用上这款强大的AI模型!

企业该如何选择?

面对如此强大的Sonnet 4.6,企业该如何选择呢?

  • 对于大多数生产环境Sonnet 4.6完全够用!性价比超高!
  • 对于前沿研究和需要顶级准确度的场景Opus 4.6仍然是首选!
  • 对于预算有限但需要强大AI能力的企业Sonnet 4.6是不二之选!

AI行业的未来趋势

Sonnet 4.6的发布释放了一个重要信号:AI模型正在从"追求极致性能"向"追求性价比"转变!

这意味着:

  • 企业AI应用门槛将大幅降低
  • 更多中小型企业将能用上顶级AI技术
  • AI将更快地渗透到各行各业

"在AI的世界里,便宜不一定没好货!有时候,中端产品的性价比反而能给你带来意想不到的惊喜!"

如果你的公司正在考虑部署AI系统,你会选择旗舰模型还是这款性价比超高的中端模型?在评论区告诉我你的想法!

如果觉得这篇文章对你有帮助,记得点赞+分享!让更多朋友了解这个AI界的大新闻!

注:图片来源于网络和AI创作

END

FOCUS ON US
关注我们了解更多最新资讯
图片