

你有没有遇到过这样的情况:明明把会议纪要发给AI,让它总结重点,结果它却胡说八道?或者刚把游戏新规则告诉AI,它转头就忘了,还按老套路回答?
别怀疑自己,这真不是你的问题!最近腾讯混元团队联合复旦大学发布了一项重磅研究,结果让所有AI用户都惊呆了:当我们要求AI「忘掉以前学的,只看我发给你的这段话」时,即使是目前地球上最强的GPT-5.1,得分率也只有惨淡的23.7%!
是的,你没看错!当我们把大模型从「背书模式」切换到「现学现卖模式」,它们就像突然变傻了一样!
要理解这个惊人的发现,我们得先搞清楚大模型是怎么工作的。
第一阶段:预训练
第二阶段:情境学习(上下文处理)
举个简单例子:
这些知识从未在互联网上出现过,只能由你把规则、信息(即「上下文」)扔给AI,让它根据这些新知识来回答问题。
这才是现实!互联网上并非应有尽有,模型对于上下文的学习能力可以说是AI的灵魂!
腾讯混元团队构建了CL-bench测试平台,包含了近2000个从未在互联网上公开过的「全新情境」。结果让人震惊:
当前主流模型得分率:
这意味着什么?当我们要求AI「现学现卖」时,它们大概率会搞砸!研究人员发现了三大致命原因:
模型在预训练里学到的东西太牢固了!当接收到新上下文时,它往往无法有效抑制预训练数据中的固有模式。
真实案例:
研究人员构建了一个虚构的软件开发包Skynet SDK。虽然只是虚构名字,但因为「Skynet(天网)」在AI的潜意识里太出名了,模型可能会下意识地把《终结者》电影里的设定带入进来,从而无视说明文档里枯燥的代码规则!
都2026年了,AI处理超长文本不是早已经驾轻就熟吗?但实际上,虽然模型能吞下几万字,它并不一定能从数据海洋里面精准地捞出那一根针!
研究发现:
AI就像固执的学生,哪怕老师已经在黑板上写了「今天1+1=3」,它还是会大声喊出「1+1=2」,因为新知识对它而言都「超纲」了!
CL-bench是前OpenAI研究员、清华姚班天才少年姚顺雨入主腾讯后,首次署名的研究成果。如果把它放到腾讯庞大的产品矩阵中去审视,就会发现「上下文学习」和这家互联网巨头自身业务逻辑的深度绑定!
与其他更偏向搜索或通用生产力工具的科技公司不同,腾讯的根基深深扎根于「社交」与「内容」的土壤之中!
想象一下微信或QQ的使用场景:
AI面临的挑战正是CL-bench所测试的极限:它必须在不依赖外部通用知识的前提下,精准地理解这段封闭对话中特有的语境、人际关系和隐含逻辑!
如果AI无法妥善处理这种高密度的上下文,它就无法真正融入十亿用户的社交链路,只能作为一个甚至会打断对话流畅度的累赘存在!
游戏领域:
企业服务场景(企业微信、腾讯会议):
现在你知道为什么AI有时聪明、有时愚蠢了吧?它不是故意跟你作对,而是真的「能力有限」!
这项研究的意义在于发现问题、解决问题!腾讯投入重金研究上下文学习,正是为了打造更智能、更懂你的AI助手!
「在场景中演满分的学生,未必能胜任真实世界的工种」——混元团队的这句话,恰恰是对当下AI最好的注脚!
对于坐拥海量应用场景的腾讯来说:
这项研究不仅是一个技术突破,更是AI发展的重要里程碑!它告诉我们:真正的智能不是记住多少知识,而是能否在全新情境中灵活应用!
「AI的终极考验,不是它能记住多少,而是它能学会多少!」
你在使用AI时,遇到过哪些「听不懂人话」的尴尬时刻?欢迎在评论区分享你的经历!
如果觉得这篇文章对你有帮助,别忘了点赞和分享给更多朋友!让我们一起期待更智能的AI时代!
