找工位
空间入驻
小程序

AI突然变傻?腾讯最新研究揭秘:最强模型得分率仅23.7%!

2026-02-12
文章转载自"淘工位"

你的AI助手为什么经常「听不懂人话」?真相让人背脊发凉!

你有没有遇到过这样的情况:明明把会议纪要发给AI,让它总结重点,结果它却胡说八道?或者刚把游戏新规则告诉AI,它转头就忘了,还按老套路回答?

别怀疑自己,这真不是你的问题!最近腾讯混元团队联合复旦大学发布了一项重磅研究,结果让所有AI用户都惊呆了:当我们要求AI「忘掉以前学的,只看我发给你的这段话」时,即使是目前地球上最强的GPT-5.1,得分率也只有惨淡的23.7%

是的,你没看错!当我们把大模型从「背书模式」切换到「现学现卖模式」,它们就像突然变傻了一样!

💡 AI的「阿喀琉斯之踵」:上下文学习能力

要理解这个惊人的发现,我们得先搞清楚大模型是怎么工作的。

第一阶段:预训练

  • 模型通过阅读海量互联网数据,记住海量知识和模式
  • 这是AI知识储备的来源,能回答通用问题的基础

第二阶段:情境学习(上下文处理)

  • 当你把全新的、内部的、复杂规则文本发给AI时
  • 你实际上在要求它跳出预训练记忆,根据眼前信息实时推理

举个简单例子:

  • 公司刚开完会的内部纪要
  • 游戏新出的活动规则
  • 你个人的特殊需求说明

这些知识从未在互联网上出现过,只能由你把规则、信息(即「上下文」)扔给AI,让它根据这些新知识来回答问题。

这才是现实!互联网上并非应有尽有,模型对于上下文的学习能力可以说是AI的灵魂

⚠️ 为什么AI会「胡说八道」?三大致命原因曝光!

腾讯混元团队构建了CL-bench测试平台,包含了近2000个从未在互联网上公开过的「全新情境」。结果让人震惊:

当前主流模型得分率:

  • GPT-5.1 (High):仅23.7%
  • Claude Opus 4.5:约21.1%
  • 其他模型:大多在10%-18%之间徘徊

这意味着什么?当我们要求AI「现学现卖」时,它们大概率会搞砸!研究人员发现了三大致命原因:

1. 预训练知识「根深蒂固」

模型在预训练里学到的东西太牢固了!当接收到新上下文时,它往往无法有效抑制预训练数据中的固有模式。

真实案例:

研究人员构建了一个虚构的软件开发包Skynet SDK。虽然只是虚构名字,但因为「Skynet(天网)」在AI的潜意识里太出名了,模型可能会下意识地把《终结者》电影里的设定带入进来,从而无视说明文档里枯燥的代码规则!

2. 复杂逻辑推演能力不足

都2026年了,AI处理超长文本不是早已经驾轻就熟吗?但实际上,虽然模型能吞下几万字,它并不一定能从数据海洋里面精准地捞出那一根针!

研究发现:

  • 当上下文非常长、逻辑非常复杂时,模型表现直线下降
  • 如果仅仅是「知识检索」,模型还凑合
  • 一旦涉及「逻辑推理」,解决率就暴跌

3. 新旧知识冲突处理困难

AI就像固执的学生,哪怕老师已经在黑板上写了「今天1+1=3」,它还是会大声喊出「1+1=2」,因为新知识对它而言都「超纲」了!

🌟 腾讯为什么如此重视这项研究?

CL-bench是前OpenAI研究员、清华姚班天才少年姚顺雨入主腾讯后,首次署名的研究成果。如果把它放到腾讯庞大的产品矩阵中去审视,就会发现「上下文学习」和这家互联网巨头自身业务逻辑的深度绑定!

社交场景的极致要求

与其他更偏向搜索或通用生产力工具的科技公司不同,腾讯的根基深深扎根于「社交」与「内容」的土壤之中!

想象一下微信或QQ的使用场景:

  • 这里产生的数据是连绵不断、高度碎片化的对话流
  • 最新的元宝派红包就是典型例子
  • 当用户试图在数百条消息的群聊中让AI总结重点
  • 或在一段长达数月的私聊记录中寻找某个约定细节

AI面临的挑战正是CL-bench所测试的极限:它必须在不依赖外部通用知识的前提下,精准地理解这段封闭对话中特有的语境、人际关系和隐含逻辑!

如果AI无法妥善处理这种高密度的上下文,它就无法真正融入十亿用户的社交链路,只能作为一个甚至会打断对话流畅度的累赘存在!

游戏与企业服务的刚需

游戏领域:

  • 各家都在探索AI如何根据即时操作和游戏内实时局势做出反应
  • 而不是机械地背诵预训练好的台词

企业服务场景(企业微信、腾讯会议):

  • 用户需要基于特定会议纪要或私有文档的精准分析
  • 在这些场景下,通用的预训练知识不仅无效
  • 甚至可能因为「幻觉」而带来严重的误导

💡 这对普通用户意味着什么?

1. 理解AI的局限性

现在你知道为什么AI有时聪明、有时愚蠢了吧?它不是故意跟你作对,而是真的「能力有限」!

2. 优化使用方式

  • 尽量提供清晰、简洁的上下文
  • 避免过于复杂的逻辑要求
  • 对重要信息进行重复强调

3. 期待未来的改进

这项研究的意义在于发现问题、解决问题!腾讯投入重金研究上下文学习,正是为了打造更智能、更懂你的AI助手!

🚀 AI的未来:从「博学」到「善学」

「在场景中演满分的学生,未必能胜任真实世界的工种」——混元团队的这句话,恰恰是对当下AI最好的注脚!

对于坐拥海量应用场景的腾讯来说:

  • 一个能在复杂上下文中保持清醒、逻辑严密的模型
  • 远比一个博学但只会死记硬背的模型
  • 具有更大的商业价值和落地潜力

这项研究不仅是一个技术突破,更是AI发展的重要里程碑!它告诉我们:真正的智能不是记住多少知识,而是能否在全新情境中灵活应用!

「AI的终极考验,不是它能记住多少,而是它能学会多少!」

你在使用AI时,遇到过哪些「听不懂人话」的尴尬时刻?欢迎在评论区分享你的经历!

如果觉得这篇文章对你有帮助,别忘了点赞分享给更多朋友!让我们一起期待更智能的AI时代!

注:图片来源于网络和AI创作

END

FOCUS ON US
关注我们了解更多最新资讯
图片