找工位
空间入驻
小程序

大模型致命短板曝光!腾讯测试500个任务,成功率仅17.2%

2026-02-08
文章转载自"淘工位"

你的AI助手可能是个"死记硬背"的学渣!

你有没有发现,明明把资料都发给AI了,它还是答非所问?明明上下文里写清楚了规则,它却按自己的"老经验"瞎搞?别怀疑,这不是你的问题——最新研究证实,当前最顶尖的大模型,根本不会从上下文学习新知识

就在昨天,腾讯混元团队放出了一个重磅炸弹!他们发布了专门评测大语言模型上下文学习能力的基准CL-bench,结果让人大跌眼镜——

即使是表现最好的GPT-5.1(High),任务成功率也只有23.7%!所有测试模型的平均成功率,更是低到17.2%

这意味着什么?意味着你花大价钱买的AI助手,可能是个只会"死记硬背"的学渣!

💡 500个复杂任务,揭开大模型的"学习假象"

过去几年,大语言模型进步神速:

  • 能解奥数难题
  • 能推演复杂编程逻辑
  • 甚至能通过专业资格考试

但腾讯混元首席AI科学家姚顺雨团队发现了一个致命问题:大模型与人类的关键区别

人类可以实时从眼前环境学习,但大模型只能依赖"参数化知识"——也就是预训练阶段被压缩进模型权重里的静态记忆

简单说:大模型在推理时,更多是在调用"封存的内部知识",而不是主动从当前输入的新信息中汲取营养!

基于这个发现,混元团队打造了CL-bench,只有一个核心目标:要求模型在解决每个任务时,都必须从上下文中学习模型预训练中不存在的新知识,并正确应用

这个基准包含了:

  • 500个复杂上下文
  • 1899个任务
  • 31607个验证标准

而且所有知识要么是专家完全新构建的,要么取自那些不太可能出现在当前前沿模型训练数据中的小众、长尾来源

🌟 四大现实场景,全面考验AI学习能力

CL-bench涵盖了四种广泛的现实世界上下文学习场景:

1. 领域知识推理上下文提供特定的领域知识,比如虚构的法律体系、创新的金融工具,模型需要利用这些知识来推理解决问题!

2. 规则系统应用上下文提供新定义的正式系统,比如新的游戏机制、数学形式体系,模型必须理解并应用这些规则!

3. 程序性任务执行上下文提供复杂的过程系统,比如工作流、产品手册,模型必须理解并应用这些程序性信息!

4. 经验发现与模拟上下文提供实验数据、观测记录,模型必须从数据中发现潜在的定律或结论!

这些类别包含了大部分现实世界工作中常见的任务,能真正衡量模型的上下文学习能力

⚠️ 五大关键结论,揭示AI的"学习障碍"

测试结果出来后,混元研究团队得出了几个让人震惊的结论:

1. 忽略或误用上下文是失败主因许多错误并非源于信息缺失,而是因为模型忽视了上下文中的关键细节!在很多情况下,模型只会利用预训练学习到的静态知识,即使上下文明确定义了新的规则,模型也不会学习和利用!

2. 长上下文推理不够用案例分析表明,那些难以跨长上下文追踪依赖关系的模型表现更差。但即使能够处理长输入并可靠遵循指令的模型,仍然在许多任务上失败!

3. 归纳推理比演绎应用更困难演绎任务让模型根据明确给出的规则进行应用,而经验发现类任务则要求归纳推理——从数据中总结规律!模型在这类任务上的表现明显较差,任务解决率通常低于10%

4. 更高推理强度通常能提升效果对部分模型来说,增加推理强度可以改善表现。例如,GPT-5.1在管理类和实验数据类任务上的表现提升约6%!

5. 短上下文也可能很复杂较长的上下文通常让任务更难,但即使是短上下文,如果包含信息密集、规则隐含的内容,也依然很具挑战性!

🔍 无污染设计,确保测试真实可靠

为了保证测试的公正性,CL-bench采用了无污染设计

  • 虚构创作:专家创作完全虚构的内容,比如为虚构国家设计完整的法律体系!
  • 现有内容修改:专家修改现实世界的内容以创建变体,比如更改历史事件!
  • 整合小众内容:纳入在预训练数据集中代表性极低的小众或近期新兴内容!

在不提供任何上下文的情况下,GPT-5.1(High)仅能解决不到1%的任务!这证明数据是无污染的,模型若不从Context中学习,几乎完全无法解决这些任务!

更厉害的是,CL-bench中的每个上下文都是完全自包含的!解决任务所需的所有信息都显式地提供在上下文本身之中,不需要外部检索!

🚀 2026年,记忆将成为核心主题

混元技术博客还透露了团队后续的关注重点:

如何让模型提升上下文学习能力?

如何让大模型从上下文中学习到的知识持久化?

如果模型的上下文学习能力能像之前其他能力那样被提升上去,人类在AI系统中的角色将发生根本转变

人类不再是主要的数据提供者,而变成了上下文提供者

竞争的焦点将从"谁能把模型训练得更好",转向"谁能为任务提供最丰富、最相关的上下文"!

他们认为,大模型如何记忆很可能成为2026年的另一个核心主题!要充分发挥大语言模型的潜力,可能需要新的架构、新的优化方式来决定"该保留什么"!

未来一旦大模型上下文学习与记忆变得可靠,模型或许就能实现自主学习!它们将自主准备上下文,从中学习并自我巩固!

💬 你的AI助手表现如何?

看到这里,你是不是也想起了自己使用AI时的那些"糟心时刻"?

明明把需求说清楚了,AI却按自己的理解瞎搞?明明文档里写明了规则,AI却视而不见?

现在你知道原因了——不是你的表达有问题,而是当前的AI根本不会从上下文学习

"最聪明的AI,往往是最会学习的那个;而最会学习的AI,一定是懂得从当下汲取智慧的那个!"

你在使用AI时遇到过哪些"不会学习"的尴尬时刻?欢迎在评论区分享你的经历!

如果觉得这篇文章对你有帮助,记得点赞+分享,让更多人了解AI的真相!

注:图片来源于网络和AI创作

END

FOCUS ON US
关注我们了解更多最新资讯
图片