评估即锚点：AI自我提升循环的认知重构与产业路径

2026-04-20 00:00:00

文章转载自"北大纵横"

来源 | 大顺AI商业流量

作者 | Alex

4901字阅读时间10分钟

伦敦DeepMind总部一间灯光微暗的会议室里，Mostafa Dehghani向团队展示了一组令人警醒的计算：

一个智能体执行100步任务，每一步成功率为95%，最终整体成功率仅为0.6%。

这不是理论推演，而是对当前AI系统“复合可靠性”的冷峻解剖。

当行业仍在为千亿参数、万亿token和推理速度欢呼时，这位Universal Transformer、ViT与Gemini系列的核心缔造者，已将手术刀精准切入AI递归自我提升（Recursive Self-Improvement, RSI）中最脆弱的环节——

评估机制的系统性缺失。

作为深度观察者，有必要警醒大家的是：

今天的我们必须直面一个被广泛忽视的事实——

AI的自我进化已在悄然发生。

新一代模型正大量依赖前代模型生成训练数据、优化架构设计、甚至提出研究假设。

然而，这场看似势不可挡的技术跃迁，其底层逻辑链条上存在一个致命断点——

如果你无法可靠地衡量“改进”，你就无法真正实现“改进”。

这不仅是工程瓶颈，更是一个认知困境。

今天，咱们就从评估体系的本质、形式化验证的迁移路径、专家模型的战略定位，以及多模态“接地”的物理锚定四个维度，层层解构AI自我提升的真实图景，并揭示一条被市场低估的产业突围路径。

一、不是测量，

而是认知闭环的构建

在AI研发的手术台上，评估机制从来不是简单的性能打分，而是整个自我提升循环的认知锚点。

Dehghani所揭示的“100步成功率崩塌”现象，本质上暴露了当前AI系统在复合任务中缺乏可组合性（composability）与可验证性（verifiability）的根本缺陷。

而这一缺陷的根源，在于评估体系尚未完成从“静态指标”到“动态反馈”的范式跃迁。

1.1 静态基准的幻觉：MMLU们为何失效？

当前主流评估工具如MMLU、HumanEval、GSM8K等，虽能反映模型在特定任务上的静态能力，却无法捕捉其在动态进化中的质变轨迹。

例如，一个模型通过强化学习微调后，在代码生成任务上的pass@1从35%提升至42%，但这是否意味着其“自我改进能力”增强？

答案并不明确。因为这些指标仅衡量输出结果，而非改进过程的可追溯性与可复现性。

更严重的是，静态基准容易诱导“过拟合式进步”。

模型通过记忆测试集模式或利用数据泄露获得高分，却未真正掌握底层逻辑。

这种“纸面繁荣”在封闭环境中持续放大，最终导致系统在真实世界中失效——

这正是“模型坍缩”（Model Collapse）的前兆：

当训练数据完全由AI生成，系统会迅速收敛到狭窄的局部最优，丧失对现实复杂性的泛化能力。

1.2 评估即环境：从指标到生态系统的跃迁

真正的评估不应局限于单一任务得分，而应构建一个模拟真实决策链的沙盒环境。

以科研自动化为例，要让AI安全地执行研究工程师的工作，需设计一套包含代码库、论文数据库、实验工具链、失败检测与回滚机制的完整生态。

该环境不仅要支持任务执行，还需提供因果可追溯的日志系统，使得每一次“改进”都能被还原、分析与验证。

Google内部正在探索此类“评估即基础设施”（Evaluation-as-Infrastructure）的架构。

其核心逻辑是：

评估不再是事后的质检环节，而是嵌入开发全流程的认知反馈环。

这种转变意味着，评估成本将显著上升——

但恰恰是这种高成本，才能过滤掉统计幻觉，保留真实进步。

1.3 人类判断的残留：RSI循环未闭合的关键障碍

当前所谓的“AI构建AI”，仍高度依赖人类设定目标、筛选结果、修正偏差。

Karpathy提出的“自动研究”框架虽能生成数百个研究思路，但最终采纳与否仍由人类决定。

这种半自动化模式虽在短期内有效，却未真正闭合RSI循环。

真正的递归自我提升要求模型不仅能生成改进方案，还能自主判断方案优劣，并承担错误后果。

这一能力的缺失，使得AI系统陷入“自说自话”的危险境地。

模型在封闭环境中反复优化，却可能偏离真实世界的需求。

评估机制的终极目标，不是追求绝对正确，而是建立一种可证伪、可校准、可迭代的反馈机制——

这正是科学方法论的核心。

二、从数学确定性到

现实模糊性的认知迁移

面对评估困境，Dehghani提出借鉴形式化验证（Formal Verification）的方法论。

这一建议极具启发性，但其价值不在于直接套用技术工具，而在于迁移其认知范式——

即通过精确规范与严格推理，构建非黑即白的判定机制。

2.1 形式化验证的边界：为何不能直接用于社会问题？

形式化验证在数学证明与程序验证中已证明其威力：

一个定理要么被证明，要么被证伪；

一段代码要么满足规约，要么存在漏洞。

这种确定性源于问题域的清晰边界与可公理化结构。

然而，现实世界的多数问题——

如医疗诊断、新闻客观性、政策效果——

缺乏此类结构。

你无法用Z3求解器判断一篇社论是否“公正”，也无法用Coq证明医生的治疗方案是否“最优”。

这里的矛盾在于：

形式化验证依赖精确的规范定义，而人类社会的多数问题本质上是模糊、多义且语境依赖的。

强行套用形式化方法，只会导致“过度简化”或“规范失真”。

2.2 类形式化评估：构建分层反馈机制

关键在于将形式化验证的核心思想——

紧密、诚实的反馈循环——

迁移到更广阔的领域。

我们可以构建一种“类形式化”的分层评估框架：

在可形式化领域（如代码、数学、逻辑推理），直接采用形式化验证作为黄金标准。

例如，AI生成的代码必须通过类型检查、边界测试与形式化规约验证；

数学证明需逐步验证每一步推导。

在半结构化领域（如法律、医疗、金融合规），结合规则引擎与专家知识库，构建“软形式化”评估。

例如，医疗建议需符合临床指南，并通过模拟病例测试其安全性与有效性。

在非结构化领域（如创意写作、社会评论、战略规划），则需设计多维度的代理指标（Proxy Metrics），如多样性、连贯性、用户满意度，并通过长期A/B测试追踪其实际影响。

这种分层策略的本质，是承认不同问题域的认知复杂度差异，并为之匹配相应的验证强度。

它不追求绝对真理，而是建立一种可追溯、可复现、可证伪的反馈机制——

这正是Dehghani所强调的“清晰、紧密的反馈循环”。

2.3 架构倒逼：催生“可验证AI”新范式

形式化验证的引入还将倒逼AI架构的变革。

当前主流大语言模型基于概率生成，其输出天然具有不确定性。

而要支持形式化评估，模型需具备更强的确定性推理能力。

这或许将催生新一代“可验证AI”架构，其内部不仅包含生成模块，还嵌入轻量级验证器，形成“生成-验证”闭环。

例如，未来的代码生成模型可能内置形式化规约检查器，在输出前自动验证逻辑一致性；

数学推理模型可能集成符号计算引擎，确保每一步推导合法。

这种架构变革，将使AI从“黑箱预测器”转向“白盒推理器”，为RSI提供可靠的认知基础。

三、不是终点，

而是AGI的能力切片与训练场

在评估体系尚未完善之际，行业该如何推进AI能力边界？

Dehghani给出了一个务实而深刻的判断：

短期内聚焦专家模型，长期目标仍是泛化AGI。

这一路径并非妥协，而是对资源约束与认知规律的尊重。

3.1 专家模型的效率优势：目标、数据与价值的三角闭环

专家模型之所以高效，源于其在三个维度上的高度对齐：

目标明确：评估标准清晰（如编译通过率、单元测试覆盖率），便于构建紧密反馈循环；

数据丰富：开源代码库、医学文献、法律判例等提供了近乎无限的高质量训练数据；

价值直接：企业愿为垂直领域能力付费，形成商业闭环，反哺研发投入。

以GitHub Copilot为例，其在编程任务上的卓越表现，不仅源于海量代码预训练，更得益于可形式化的评估环境——

代码要么能编译运行，要么不能。这种非黑即白的反馈，极大加速了模型进化。

3.2 通用模型的困境：后训练过拟合与能力退化

然而，专家模型只是通向AGI的“铺路石”。

Dehghani强调：“人们并不关心他们的问题属于什么类别。如果人类把某件事称为‘问题’，AI就应该能解决它。”

这揭示了AGI的根本需求——

跨领域的问题解决能力。

当前，通用大模型面临“后训练过拟合”困境：

强化某一领域能力（如代码）可能导致其他能力（如数学推理）退化。

这是因为微调过程破坏了预训练阶段学到的通用表征。

更严重的是，通用模型在缺乏明确评估标准的领域（如战略规划、伦理判断）极易陷入“流畅但空洞”的输出陷阱。

3.3 模块化整合：从专业化到泛化的可行路径

破解这一困局的关键，在于将专家模型视为AGI的“能力切片”，并通过模块化架构实现动态整合：

架构层面：采用混合专家（MoE）或可插拔模块设计，使通用模型能按需调用专业化子模块；

训练层面：在通用预训练基础上，通过课程学习（Curriculum Learning）逐步引入专家任务，避免灾难性遗忘；

评估层面：为每个专家能力定义独立评估协议，同时设计跨领域综合测试（如AgentBench）衡量泛化水平。

这种“专业化→模块化→泛化”的路径，既利用了专家模型的短期优势，又为AGI构建了可扩展的能力基座。

正如ViT的成功并非源于复杂设计，而是简单粗暴的“图像切片+Transformer+规模化”，AGI的突破也可能来自对专业化路径的巧妙整合，而非一味追求全能。

四、“接地”的物理锚点

与模型坍缩的防火墙

无论评估体系如何完善，专业化路径如何设计，AI自我提升的终极挑战仍是如何与物理世界保持连接。

Dehghani对此的表述极为犀利：“关键在于保持‘接地’（Grounded），锚定在真实事物上。”

而实现“接地”的最有效途径，正是原生多模态学习。

4.1 语言的报告偏见：纯文本训练的认知盲区

语言本身具有强烈的“报告偏见”（Reporting Bias）——

人类倾向于描述异常事件（如“香蕉形状的沙发”），而忽略常态（如普通沙发）。

这导致纯文本训练的模型对世界常识的理解存在系统性盲区。

例如，模型可能知道“引力使物体下落”，但无法直观理解“松手后苹果为何加速下坠”。

更严重的是，纯文本模型缺乏对物理因果律的内化。

它能描述“水沸腾”，但无法预测“在高原地区水在90℃沸腾”。

这种脱离物理现实的认知，使其在需要真实世界建模的任务中（如机器人控制、科学发现）表现脆弱。

4.2 多模态即世界模型：从感知到生成的认知内化

多模态数据（图像、视频、音频、传感器信号）则提供了无偏见的世界模型。

通过观察视频，模型能直接学习物体运动规律；

通过分析触觉数据，能理解材质与力的关系。

更重要的是，学习生成多模态数据的过程，本身就是对世界物理规律的内化。

Gemini从第一天起就是多模态的，正是基于这一认知。

尽管目前跨模态的正向迁移效应尚不明显（如Dehghani坦言“很难看到文本困惑度因图像训练而下降”），但其潜力巨大：

视频理解可增强时序推理能力，助力长程任务规划；

音频分析可提升语音交互的自然度，改善人机协作效率；

3D重建可深化空间认知，为机器人控制提供基础。

4.3 增量生成与感官扩展：通往真实“接地”的下一步

要实现真正的“接地”，还需突破两大瓶颈：

感官数据的获取：当前AI缺乏嗅觉、触觉等感官输入。未来需发展低成本传感器与多模态融合算法；

增量生成与规划：单次生成复杂场景易失败，而增量式生成（先大物体后细节）结合规划能力，可显著提升可靠性。

只有当AI不仅能处理文本与像素，还能理解温度、硬度、气味等物理属性时，其自我提升才真正扎根于现实土壤，避免沦为数字幻境中的空转。

在基本面驱动的认知螺旋中寻找长期价值

回望AI自我提升的征途，我们正站在一个关键十字路口。

一边是算力军备竞赛的喧嚣，另一边是评估机制缺失的寂静危机。

Dehghani的洞见为我们指明了一条更本质的路径：

以评估为锚，以形式化验证为镜，以专家模型为阶，以多模态接地为根。

这条路注定崎岖。

评估体系的构建需要跨学科协作，形式化验证的扩展面临现实复杂性，专业化与泛化的平衡考验工程智慧，多模态“接地”依赖硬件突破。

但正如Universal Transformer的诞生源于一个被拒稿的简单想法，ViT的成功来自16x16图像切片的朴素直觉，AGI的突破或许也藏在某个被忽视的“简单”原则中。

对专业投资者与产业研究者而言，真正的机会不在参数规模的数字游戏，而在评估基础设施、验证工具链、多模态传感器、模块化架构等底层支撑领域。

这些“boring but critical”的环节，才是AI自我提升循环得以闭合的基石。

它们构成了AI产业的“基本面”——

不依赖市场情绪，不追逐短期热点，而是由真实需求与技术规律驱动的长期价值。

最后，让我们铭记Dehghani的警示：“技术进步的速度明显跑在了世界发展配套机制的能力之前。”

AGI不仅是技术问题，更是社会契约的重构。

唯有将评估、验证、接地、泛化纳入统一框架，我们才能确保AI的自我提升，最终服务于人类文明的提升——

而非相反。

这不仅是工程师的责任，也是每一位关注长期价值的投资者与研究者的认知起点。

文中观点仅为作者观点，不代表本平台立场

各位读者朋友，公众号改了推送规则，如果您还希望第一时间收到我们推送的文章，请记得给北大纵横公众号设置星标。

点击左下方公众号“北大纵横”→点击右上角“...”→点选“设为星标⭐️”

上一篇：【传统产业“三新”转型系列研究】破局与重构：汽车制造业转型研究

下一篇： LPR连续11个月保持不变，楼市......

热点资讯

历届鲁迅文学奖获奖作品名单

2024-09-02 00:00:00

【快讯】广州市委常委、黄埔区委书记陈杰一行调研蜜蜂科技BEEPLUS

2023-09-01 00:00:00

12年，从22亿到超过520亿，海底捞谋局千亿背后的战略解码

2024-05-16 00:00:00

2025年深圳注册公司全流程指南：一步到位

2025-05-20 00:00:00

【2024新一线城市名单出炉】三大角度解析《新一线城市魅力排行榜》榜单

2024-06-07 00:00:00

超过海尔、格力上千亿，3737亿的美的，全球第一背后的战略解码（万字深度长文）

2024-10-04 00:00:00

全网开骂的武汉“孕妇选美比赛”，撕开了当下社会最离谱的一幕

2024-11-18 00:00:00