找工位
空间入驻
小程序

评估即锚点:AI自我提升循环的认知重构与产业路径

2026-04-20 00:00:00
文章转载自"北大纵横"

图片
来源 | 大顺AI商业流量
作者 | Alex
4901字 阅读时间10分钟
伦敦DeepMind总部一间灯光微暗的会议室里,Mostafa Dehghani向团队展示了一组令人警醒的计算:
一个智能体执行100步任务,每一步成功率为95%,最终整体成功率仅为0.6%。
这不是理论推演,而是对当前AI系统“复合可靠性”的冷峻解剖。
当行业仍在为千亿参数、万亿token和推理速度欢呼时,这位Universal Transformer、ViT与Gemini系列的核心缔造者,已将手术刀精准切入AI递归自我提升(Recursive Self-Improvement, RSI)中最脆弱的环节——
评估机制的系统性缺失。  
作为深度观察者,有必要警醒大家的是:
今天的我们必须直面一个被广泛忽视的事实——
AI的自我进化已在悄然发生。
新一代模型正大量依赖前代模型生成训练数据、优化架构设计、甚至提出研究假设。
然而,这场看似势不可挡的技术跃迁,其底层逻辑链条上存在一个致命断点——
如果你无法可靠地衡量“改进”,你就无法真正实现“改进”。
这不仅是工程瓶颈,更是一个认知困境。
今天,咱们就从评估体系的本质、形式化验证的迁移路径、专家模型的战略定位,以及多模态“接地”的物理锚定四个维度,层层解构AI自我提升的真实图景,并揭示一条被市场低估的产业突围路径。

一、不是测量,
而是认知闭环的构建  
在AI研发的手术台上,评估机制从来不是简单的性能打分,而是整个自我提升循环的认知锚点。
Dehghani所揭示的“100步成功率崩塌”现象,本质上暴露了当前AI系统在复合任务中缺乏可组合性(composability)与可验证性(verifiability)的根本缺陷。
而这一缺陷的根源,在于评估体系尚未完成从“静态指标”到“动态反馈”的范式跃迁。  
1.1 静态基准的幻觉:MMLU们为何失效?  
当前主流评估工具如MMLU、HumanEval、GSM8K等,虽能反映模型在特定任务上的静态能力,却无法捕捉其在动态进化中的质变轨迹。
例如,一个模型通过强化学习微调后,在代码生成任务上的pass@1从35%提升至42%,但这是否意味着其“自我改进能力”增强?
答案并不明确。因为这些指标仅衡量输出结果,而非改进过程的可追溯性与可复现性。  
更严重的是,静态基准容易诱导“过拟合式进步”。
模型通过记忆测试集模式或利用数据泄露获得高分,却未真正掌握底层逻辑。
这种“纸面繁荣”在封闭环境中持续放大,最终导致系统在真实世界中失效——
这正是“模型坍缩”(Model Collapse)的前兆:
当训练数据完全由AI生成,系统会迅速收敛到狭窄的局部最优,丧失对现实复杂性的泛化能力。  
1.2 评估即环境:从指标到生态系统的跃迁  
真正的评估不应局限于单一任务得分,而应构建一个模拟真实决策链的沙盒环境。
以科研自动化为例,要让AI安全地执行研究工程师的工作,需设计一套包含代码库、论文数据库、实验工具链、失败检测与回滚机制的完整生态。
该环境不仅要支持任务执行,还需提供因果可追溯的日志系统,使得每一次“改进”都能被还原、分析与验证。  
Google内部正在探索此类“评估即基础设施”(Evaluation-as-Infrastructure)的架构。
其核心逻辑是:
评估不再是事后的质检环节,而是嵌入开发全流程的认知反馈环。
这种转变意味着,评估成本将显著上升——
但恰恰是这种高成本,才能过滤掉统计幻觉,保留真实进步。
1.3 人类判断的残留:RSI循环未闭合的关键障碍  
当前所谓的“AI构建AI”,仍高度依赖人类设定目标、筛选结果、修正偏差。
Karpathy提出的“自动研究”框架虽能生成数百个研究思路,但最终采纳与否仍由人类决定。
这种半自动化模式虽在短期内有效,却未真正闭合RSI循环。
真正的递归自我提升要求模型不仅能生成改进方案,还能自主判断方案优劣,并承担错误后果。  
这一能力的缺失,使得AI系统陷入“自说自话”的危险境地。
模型在封闭环境中反复优化,却可能偏离真实世界的需求。
评估机制的终极目标,不是追求绝对正确,而是建立一种可证伪、可校准、可迭代的反馈机制——
这正是科学方法论的核心。

二、从数学确定性到
现实模糊性的认知迁移  
面对评估困境,Dehghani提出借鉴形式化验证(Formal Verification)的方法论。
这一建议极具启发性,但其价值不在于直接套用技术工具,而在于迁移其认知范式——
即通过精确规范与严格推理,构建非黑即白的判定机制。  
2.1 形式化验证的边界:为何不能直接用于社会问题?  
形式化验证在数学证明与程序验证中已证明其威力:
一个定理要么被证明,要么被证伪;
一段代码要么满足规约,要么存在漏洞。
这种确定性源于问题域的清晰边界与可公理化结构。
然而,现实世界的多数问题——
如医疗诊断、新闻客观性、政策效果——
缺乏此类结构。
你无法用Z3求解器判断一篇社论是否“公正”,也无法用Coq证明医生的治疗方案是否“最优”。  
这里的矛盾在于:
形式化验证依赖精确的规范定义,而人类社会的多数问题本质上是模糊、多义且语境依赖的。
强行套用形式化方法,只会导致“过度简化”或“规范失真”。
2.2 类形式化评估:构建分层反馈机制  
关键在于将形式化验证的核心思想——
紧密、诚实的反馈循环——
迁移到更广阔的领域。
我们可以构建一种“类形式化”的分层评估框架: 
在可形式化领域(如代码、数学、逻辑推理),直接采用形式化验证作为黄金标准。
例如,AI生成的代码必须通过类型检查、边界测试与形式化规约验证;
数学证明需逐步验证每一步推导。
在半结构化领域(如法律、医疗、金融合规),结合规则引擎与专家知识库,构建“软形式化”评估。
例如,医疗建议需符合临床指南,并通过模拟病例测试其安全性与有效性。
在非结构化领域(如创意写作、社会评论、战略规划),则需设计多维度的代理指标(Proxy Metrics),如多样性、连贯性、用户满意度,并通过长期A/B测试追踪其实际影响。  
这种分层策略的本质,是承认不同问题域的认知复杂度差异,并为之匹配相应的验证强度。
它不追求绝对真理,而是建立一种可追溯、可复现、可证伪的反馈机制——
这正是Dehghani所强调的“清晰、紧密的反馈循环”。
2.3 架构倒逼:催生“可验证AI”新范式  
形式化验证的引入还将倒逼AI架构的变革。
当前主流大语言模型基于概率生成,其输出天然具有不确定性。
而要支持形式化评估,模型需具备更强的确定性推理能力
这或许将催生新一代“可验证AI”架构,其内部不仅包含生成模块,还嵌入轻量级验证器,形成“生成-验证”闭环。  
例如,未来的代码生成模型可能内置形式化规约检查器,在输出前自动验证逻辑一致性;
数学推理模型可能集成符号计算引擎,确保每一步推导合法。
这种架构变革,将使AI从“黑箱预测器”转向“白盒推理器”,为RSI提供可靠的认知基础。

三、不是终点,
而是AGI的能力切片与训练场  
在评估体系尚未完善之际,行业该如何推进AI能力边界?
Dehghani给出了一个务实而深刻的判断:
短期内聚焦专家模型,长期目标仍是泛化AGI。
这一路径并非妥协,而是对资源约束与认知规律的尊重。
3.1 专家模型的效率优势:目标、数据与价值的三角闭环  
专家模型之所以高效,源于其在三个维度上的高度对齐:
目标明确:评估标准清晰(如编译通过率、单元测试覆盖率),便于构建紧密反馈循环;
数据丰富:开源代码库、医学文献、法律判例等提供了近乎无限的高质量训练数据;
价值直接:企业愿为垂直领域能力付费,形成商业闭环,反哺研发投入。  
以GitHub Copilot为例,其在编程任务上的卓越表现,不仅源于海量代码预训练,更得益于可形式化的评估环境——
代码要么能编译运行,要么不能。这种非黑即白的反馈,极大加速了模型进化。  
3.2 通用模型的困境:后训练过拟合与能力退化  
然而,专家模型只是通向AGI的“铺路石”。
Dehghani强调:“人们并不关心他们的问题属于什么类别。如果人类把某件事称为‘问题’,AI就应该能解决它。” 
这揭示了AGI的根本需求——
跨领域的问题解决能力。  
当前,通用大模型面临“后训练过拟合”困境:
强化某一领域能力(如代码)可能导致其他能力(如数学推理)退化。
这是因为微调过程破坏了预训练阶段学到的通用表征。
更严重的是,通用模型在缺乏明确评估标准的领域(如战略规划、伦理判断)极易陷入“流畅但空洞”的输出陷阱。
3.3 模块化整合:从专业化到泛化的可行路径  
破解这一困局的关键,在于将专家模型视为AGI的“能力切片”,并通过模块化架构实现动态整合: 
架构层面:采用混合专家(MoE)或可插拔模块设计,使通用模型能按需调用专业化子模块;
训练层面:在通用预训练基础上,通过课程学习(Curriculum Learning)逐步引入专家任务,避免灾难性遗忘;
评估层面:为每个专家能力定义独立评估协议,同时设计跨领域综合测试(如AgentBench)衡量泛化水平。  
这种“专业化→模块化→泛化”的路径,既利用了专家模型的短期优势,又为AGI构建了可扩展的能力基座。
正如ViT的成功并非源于复杂设计,而是简单粗暴的“图像切片+Transformer+规模化”,AGI的突破也可能来自对专业化路径的巧妙整合,而非一味追求全能。

四、“接地”的物理锚点
与模型坍缩的防火墙  
无论评估体系如何完善,专业化路径如何设计,AI自我提升的终极挑战仍是如何与物理世界保持连接。
Dehghani对此的表述极为犀利:“关键在于保持‘接地’(Grounded),锚定在真实事物上。” 
而实现“接地”的最有效途径,正是原生多模态学习。  
4.1 语言的报告偏见:纯文本训练的认知盲区  
语言本身具有强烈的“报告偏见”(Reporting Bias)——
人类倾向于描述异常事件(如“香蕉形状的沙发”),而忽略常态(如普通沙发)。
这导致纯文本训练的模型对世界常识的理解存在系统性盲区。
例如,模型可能知道“引力使物体下落”,但无法直观理解“松手后苹果为何加速下坠”。  
更严重的是,纯文本模型缺乏对物理因果律的内化。
它能描述“水沸腾”,但无法预测“在高原地区水在90℃沸腾”。
这种脱离物理现实的认知,使其在需要真实世界建模的任务中(如机器人控制、科学发现)表现脆弱。 
4.2 多模态即世界模型:从感知到生成的认知内化  
多模态数据(图像、视频、音频、传感器信号)则提供了无偏见的世界模型。
通过观察视频,模型能直接学习物体运动规律;
通过分析触觉数据,能理解材质与力的关系。
更重要的是,学习生成多模态数据的过程,本身就是对世界物理规律的内化。
Gemini从第一天起就是多模态的,正是基于这一认知。  
尽管目前跨模态的正向迁移效应尚不明显(如Dehghani坦言“很难看到文本困惑度因图像训练而下降”),但其潜力巨大:
视频理解可增强时序推理能力,助力长程任务规划; 
音频分析可提升语音交互的自然度,改善人机协作效率; 
3D重建可深化空间认知,为机器人控制提供基础。 
4.3 增量生成与感官扩展:通往真实“接地”的下一步  
要实现真正的“接地”,还需突破两大瓶颈: 
感官数据的获取:当前AI缺乏嗅觉、触觉等感官输入。未来需发展低成本传感器与多模态融合算法;
增量生成与规划:单次生成复杂场景易失败,而增量式生成(先大物体后细节)结合规划能力,可显著提升可靠性。  
只有当AI不仅能处理文本与像素,还能理解温度、硬度、气味等物理属性时,其自我提升才真正扎根于现实土壤,避免沦为数字幻境中的空转。

在基本面驱动的认知螺旋中寻找长期价值  
回望AI自我提升的征途,我们正站在一个关键十字路口。
一边是算力军备竞赛的喧嚣,另一边是评估机制缺失的寂静危机。
Dehghani的洞见为我们指明了一条更本质的路径:
以评估为锚,以形式化验证为镜,以专家模型为阶,以多模态接地为根。  
这条路注定崎岖。
评估体系的构建需要跨学科协作,形式化验证的扩展面临现实复杂性,专业化与泛化的平衡考验工程智慧,多模态“接地”依赖硬件突破。
但正如Universal Transformer的诞生源于一个被拒稿的简单想法,ViT的成功来自16x16图像切片的朴素直觉,AGI的突破或许也藏在某个被忽视的“简单”原则中。  
对专业投资者与产业研究者而言,真正的机会不在参数规模的数字游戏,而在评估基础设施、验证工具链、多模态传感器、模块化架构等底层支撑领域。
这些“boring but critical”的环节,才是AI自我提升循环得以闭合的基石。
它们构成了AI产业的“基本面”——
不依赖市场情绪,不追逐短期热点,而是由真实需求与技术规律驱动的长期价值。
最后,让我们铭记Dehghani的警示:“技术进步的速度明显跑在了世界发展配套机制的能力之前。” 
AGI不仅是技术问题,更是社会契约的重构。
唯有将评估、验证、接地、泛化纳入统一框架,我们才能确保AI的自我提升,最终服务于人类文明的提升——
而非相反。
这不仅是工程师的责任,也是每一位关注长期价值的投资者与研究者的认知起点。
图片


文中观点仅为作者观点,不代表本平台立场


各位读者朋友,公众号改了推送规则,如果您还希望第一时间收到我们推送的文章,请记得给北大纵横公众号设置星标。图片

点击左下方公众号“北大纵横”→点击右上角“...”→点选“设为星标⭐️”