

你有没有想过,为什么AI评测总是让人看不懂?
看到一个AI说数学考了90分,阅读理解85分,代码编写95分...这些数字到底意味着什么?你根本不知道这个AI到底有什么真本事!
更可怕的是,今天它在数学测试上表现优秀,明天可能就在实际应用中翻车。这就是当前AI评估最大的困境——我们根本看不清AI的真实能力!
最近,Nature杂志发表了一篇重磅论文,直接戳破了AI评估的泡沫!
更让人惊讶的是,这篇论文的第一作者周乐鑫,竟然是个00后!这已经是他两年内第二次在Nature上发表论文了!
2024年9月,年仅23岁的周乐鑫就在Nature上发表了他的第一篇论文,结论直接让整个AI圈炸锅!
他发现:更大、更新的AI模型,反而更不可靠!
这个发现有多颠覆?当时他和团队分析了GPT、LLaMA、BLOOM等多个主流AI模型,发现随着模型规模变大,它们在回答问题时反而更容易给出错误答案!
更诡异的是,新一代模型(如GPT-4)在面对超出能力范围的问题时,不再像老模型那样选择回避,而是硬着头皮给出错误答案!
研究者把这种现象称为“过度自信”!这篇论文在Reddit上就有超过20万网友围观讨论!
继上次论文发表不到一年,周乐鑫带着他的第二篇Nature论文回来了!
这次,他不再只是指出问题,而是提出了一套完整的解决方案!
论文标题是《通用量表解锁AI评估的解释力和预测力》,直接瞄准了AI评估的根本问题!
现在的AI评估方式,就是让AI做题然后打分,其实根本说不清AI到底“有什么能力”!
想象一下:你看到某个AI在数学测试上考了90分,这个数字能告诉你什么?
什么也不能!
你无法推断它会不会做另一道数学题,更无法预测它能不能搞定阅读理解、代码编写、图像分析等其他任务!
原因很简单:分数只是分数,它背后是能力、考试难度、题目类型等多个因素混合的产物,根本无法拆解!
这就是为什么很多人说“AI评估是个黑箱”:你不知道AI为什么对,也不清楚它为什么错!
周乐鑫团队的解决方案太聪明了:给每道题目和每个AI都打上标签,建立一套统一的“度量衡”!
他们设计了一套包含18个维度的“通用量表”!这18把“尺子”大致分为三类:
举个例子,用他们的方法,一道数学题会被标注为:需要多高的逻辑推理能力、需要什么领域的知识、题目是否“非主流”、题目有多长等等!
然后让AI模型也用同样的维度被标注为“能力画像”——比如某个模型的逻辑推理是4.5级、知识是3.8级!
当把两者一对比,就能预测AI能不能做这道题!
这套方法的核心思路是,不仅给AI的能力打分,也给每道考题的难度打标签,然后把两者放在同一套标准下比较!
研究者用15个主流AI模型和20个基准测试做了大规模实验,总共分析了超过16000道题目和接近30万条标注数据!
结果太震撼了:
作为对比,传统预测方法在这些任务上的表现都明显更低,特别是在分布外预测时下降严重!
这说明新方法具有更强的泛化能力,不容易“死记硬背”训练数据中的模式!
除了提出评估方法,论文还揭示了一些出人意料的结论!
研究者分析了20个主流AI基准测试,发现大多数测试根本没有测量它们声称要测量的东西!
比如某个数学考试声称测试“数学推理能力”,但实际上对推理能力的要求并不高,反而对特定领域知识的要求很高!
换句话说,这些考试可能只是在测试AI“会不会做这道题”,而不是它具不具备真正的能力!
更严重的是,很多测试存在“污染”问题——AI在训练时可能见过类似题目,导致分数虚高!
研究者发现了大模型缩放中的“边际递减”效应!
和2024年的论文中“模型越大越差”相比,周乐鑫修正了他的表述:模型越大,收益越小,且训练方法可能比规模更关键!
当模型参数量已经很大时(如超过70亿参数),继续增大带来的能力提升变得越来越小!
更重要的是,某些采用“思维链”技术的模型,在逻辑推理上的提升远超单纯增加参数!
这篇论文解决的是一个“谁都知道但没人解决得了”的问题:到底怎么才能“看清”一个AI的能力?
现在的行业惯例是搞一个基准测试,让AI去做,得个分数,然后宣布“我们公司又赢了”!
但这种评估方式有三个致命问题:
而周乐鑫团队提出的这套方法,相当于给AI能力装了一把“标尺”,让以上三个问题都得到了实质性解决!
这不是一个纸上谈兵的研究!论文不仅有概念,还有实物:
这些资源现在都已经开源,其他团队看完论文就能直接用!
更厉害的是,这套方法不仅可以用来更科学地评估AI,还能在实际部署中发挥作用!
企业可以提前判断某个AI是否适合某项任务,安全部门可以预判AI可能在哪里“翻车”!
对于普通用户来说,这意味着什么?
未来当你看到一个AI产品的评测报告时,可能不再是“综合得分92.3”,而是一张清晰的画像:
“本模型在逻辑推理能力上相当于需求等级4.1,适合处理中等复杂度的法律文书分析;在开放域知识上能力等级3.8,不建议用于高专精度的医学诊断。”
这不正是我们一直想要的“可信AI”的第一步吗?
金句总结:过去我们看AI排行榜,就像看奥运会成绩——只告诉你谁跑得快,不告诉你为什么!现在,我们终于有了一张“体质健康标准”表!
互动问题:你觉得这种新的AI评估方式,会对AI行业产生什么样的影响?你最希望AI在哪个领域的能力被准确评估?
点赞分享引导:如果你也觉得这篇研究很重要,点赞支持一下!转发给更多关心AI发展的朋友,一起讨论AI的未来!