评估即锚点:AI自我提升循环的认知重构与产业路径
2026-04-20 00:00:00
文章转载自"北大纵横"
伦敦DeepMind总部一间灯光微暗的会议室里,Mostafa Dehghani向团队展示了一组令人警醒的计算:一个智能体执行100步任务,每一步成功率为95%,最终整体成功率仅为0.6%。这不是理论推演,而是对当前AI系统“复合可靠性”的冷峻解剖。当行业仍在为千亿参数、万亿token和推理速度欢呼时,这位Universal Transformer、ViT与Gemini系列的核心缔造者,已将手术刀精准切入AI递归自我提升(Recursive Self-Improvement, RSI)中最脆弱的环节——新一代模型正大量依赖前代模型生成训练数据、优化架构设计、甚至提出研究假设。然而,这场看似势不可挡的技术跃迁,其底层逻辑链条上存在一个致命断点——如果你无法可靠地衡量“改进”,你就无法真正实现“改进”。今天,咱们就从评估体系的本质、形式化验证的迁移路径、专家模型的战略定位,以及多模态“接地”的物理锚定四个维度,层层解构AI自我提升的真实图景,并揭示一条被市场低估的产业突围路径。在AI研发的手术台上,评估机制从来不是简单的性能打分,而是整个自我提升循环的认知锚点。Dehghani所揭示的“100步成功率崩塌”现象,本质上暴露了当前AI系统在复合任务中缺乏可组合性(composability)与可验证性(verifiability)的根本缺陷。而这一缺陷的根源,在于评估体系尚未完成从“静态指标”到“动态反馈”的范式跃迁。 当前主流评估工具如MMLU、HumanEval、GSM8K等,虽能反映模型在特定任务上的静态能力,却无法捕捉其在动态进化中的质变轨迹。例如,一个模型通过强化学习微调后,在代码生成任务上的pass@1从35%提升至42%,但这是否意味着其“自我改进能力”增强?答案并不明确。因为这些指标仅衡量输出结果,而非改进过程的可追溯性与可复现性。 模型通过记忆测试集模式或利用数据泄露获得高分,却未真正掌握底层逻辑。这种“纸面繁荣”在封闭环境中持续放大,最终导致系统在真实世界中失效——这正是“模型坍缩”(Model Collapse)的前兆:当训练数据完全由AI生成,系统会迅速收敛到狭窄的局部最优,丧失对现实复杂性的泛化能力。 真正的评估不应局限于单一任务得分,而应构建一个模拟真实决策链的沙盒环境。以科研自动化为例,要让AI安全地执行研究工程师的工作,需设计一套包含代码库、论文数据库、实验工具链、失败检测与回滚机制的完整生态。该环境不仅要支持任务执行,还需提供因果可追溯的日志系统,使得每一次“改进”都能被还原、分析与验证。 Google内部正在探索此类“评估即基础设施”(Evaluation-as-Infrastructure)的架构。评估不再是事后的质检环节,而是嵌入开发全流程的认知反馈环。但恰恰是这种高成本,才能过滤掉统计幻觉,保留真实进步。1.3 人类判断的残留:RSI循环未闭合的关键障碍 当前所谓的“AI构建AI”,仍高度依赖人类设定目标、筛选结果、修正偏差。Karpathy提出的“自动研究”框架虽能生成数百个研究思路,但最终采纳与否仍由人类决定。这种半自动化模式虽在短期内有效,却未真正闭合RSI循环。真正的递归自我提升要求模型不仅能生成改进方案,还能自主判断方案优劣,并承担错误后果。 这一能力的缺失,使得AI系统陷入“自说自话”的危险境地。模型在封闭环境中反复优化,却可能偏离真实世界的需求。评估机制的终极目标,不是追求绝对正确,而是建立一种可证伪、可校准、可迭代的反馈机制——面对评估困境,Dehghani提出借鉴形式化验证(Formal Verification)的方法论。这一建议极具启发性,但其价值不在于直接套用技术工具,而在于迁移其认知范式——即通过精确规范与严格推理,构建非黑即白的判定机制。 2.1 形式化验证的边界:为何不能直接用于社会问题? 你无法用Z3求解器判断一篇社论是否“公正”,也无法用Coq证明医生的治疗方案是否“最优”。 形式化验证依赖精确的规范定义,而人类社会的多数问题本质上是模糊、多义且语境依赖的。强行套用形式化方法,只会导致“过度简化”或“规范失真”。在可形式化领域(如代码、数学、逻辑推理),直接采用形式化验证作为黄金标准。例如,AI生成的代码必须通过类型检查、边界测试与形式化规约验证;在半结构化领域(如法律、医疗、金融合规),结合规则引擎与专家知识库,构建“软形式化”评估。例如,医疗建议需符合临床指南,并通过模拟病例测试其安全性与有效性。在非结构化领域(如创意写作、社会评论、战略规划),则需设计多维度的代理指标(Proxy Metrics),如多样性、连贯性、用户满意度,并通过长期A/B测试追踪其实际影响。 这种分层策略的本质,是承认不同问题域的认知复杂度差异,并为之匹配相应的验证强度。它不追求绝对真理,而是建立一种可追溯、可复现、可证伪的反馈机制——这正是Dehghani所强调的“清晰、紧密的反馈循环”。当前主流大语言模型基于概率生成,其输出天然具有不确定性。而要支持形式化评估,模型需具备更强的确定性推理能力。这或许将催生新一代“可验证AI”架构,其内部不仅包含生成模块,还嵌入轻量级验证器,形成“生成-验证”闭环。 例如,未来的代码生成模型可能内置形式化规约检查器,在输出前自动验证逻辑一致性;数学推理模型可能集成符号计算引擎,确保每一步推导合法。这种架构变革,将使AI从“黑箱预测器”转向“白盒推理器”,为RSI提供可靠的认知基础。在评估体系尚未完善之际,行业该如何推进AI能力边界?这一路径并非妥协,而是对资源约束与认知规律的尊重。3.1 专家模型的效率优势:目标、数据与价值的三角闭环 专家模型之所以高效,源于其在三个维度上的高度对齐:目标明确:评估标准清晰(如编译通过率、单元测试覆盖率),便于构建紧密反馈循环;数据丰富:开源代码库、医学文献、法律判例等提供了近乎无限的高质量训练数据;价值直接:企业愿为垂直领域能力付费,形成商业闭环,反哺研发投入。 以GitHub Copilot为例,其在编程任务上的卓越表现,不仅源于海量代码预训练,更得益于可形式化的评估环境——代码要么能编译运行,要么不能。这种非黑即白的反馈,极大加速了模型进化。 Dehghani强调:“人们并不关心他们的问题属于什么类别。如果人类把某件事称为‘问题’,AI就应该能解决它。” 强化某一领域能力(如代码)可能导致其他能力(如数学推理)退化。更严重的是,通用模型在缺乏明确评估标准的领域(如战略规划、伦理判断)极易陷入“流畅但空洞”的输出陷阱。破解这一困局的关键,在于将专家模型视为AGI的“能力切片”,并通过模块化架构实现动态整合: 架构层面:采用混合专家(MoE)或可插拔模块设计,使通用模型能按需调用专业化子模块;训练层面:在通用预训练基础上,通过课程学习(Curriculum Learning)逐步引入专家任务,避免灾难性遗忘;评估层面:为每个专家能力定义独立评估协议,同时设计跨领域综合测试(如AgentBench)衡量泛化水平。 这种“专业化→模块化→泛化”的路径,既利用了专家模型的短期优势,又为AGI构建了可扩展的能力基座。正如ViT的成功并非源于复杂设计,而是简单粗暴的“图像切片+Transformer+规模化”,AGI的突破也可能来自对专业化路径的巧妙整合,而非一味追求全能。无论评估体系如何完善,专业化路径如何设计,AI自我提升的终极挑战仍是如何与物理世界保持连接。Dehghani对此的表述极为犀利:“关键在于保持‘接地’(Grounded),锚定在真实事物上。” 语言本身具有强烈的“报告偏见”(Reporting Bias)——人类倾向于描述异常事件(如“香蕉形状的沙发”),而忽略常态(如普通沙发)。这导致纯文本训练的模型对世界常识的理解存在系统性盲区。例如,模型可能知道“引力使物体下落”,但无法直观理解“松手后苹果为何加速下坠”。 它能描述“水沸腾”,但无法预测“在高原地区水在90℃沸腾”。这种脱离物理现实的认知,使其在需要真实世界建模的任务中(如机器人控制、科学发现)表现脆弱。 多模态数据(图像、视频、音频、传感器信号)则提供了无偏见的世界模型。更重要的是,学习生成多模态数据的过程,本身就是对世界物理规律的内化。Gemini从第一天起就是多模态的,正是基于这一认知。 尽管目前跨模态的正向迁移效应尚不明显(如Dehghani坦言“很难看到文本困惑度因图像训练而下降”),但其潜力巨大:音频分析可提升语音交互的自然度,改善人机协作效率; 4.3 增量生成与感官扩展:通往真实“接地”的下一步 感官数据的获取:当前AI缺乏嗅觉、触觉等感官输入。未来需发展低成本传感器与多模态融合算法;增量生成与规划:单次生成复杂场景易失败,而增量式生成(先大物体后细节)结合规划能力,可显著提升可靠性。 只有当AI不仅能处理文本与像素,还能理解温度、硬度、气味等物理属性时,其自我提升才真正扎根于现实土壤,避免沦为数字幻境中的空转。回望AI自我提升的征途,我们正站在一个关键十字路口。一边是算力军备竞赛的喧嚣,另一边是评估机制缺失的寂静危机。Dehghani的洞见为我们指明了一条更本质的路径:以评估为锚,以形式化验证为镜,以专家模型为阶,以多模态接地为根。 评估体系的构建需要跨学科协作,形式化验证的扩展面临现实复杂性,专业化与泛化的平衡考验工程智慧,多模态“接地”依赖硬件突破。但正如Universal Transformer的诞生源于一个被拒稿的简单想法,ViT的成功来自16x16图像切片的朴素直觉,AGI的突破或许也藏在某个被忽视的“简单”原则中。 对专业投资者与产业研究者而言,真正的机会不在参数规模的数字游戏,而在评估基础设施、验证工具链、多模态传感器、模块化架构等底层支撑领域。这些“boring but critical”的环节,才是AI自我提升循环得以闭合的基石。不依赖市场情绪,不追逐短期热点,而是由真实需求与技术规律驱动的长期价值。最后,让我们铭记Dehghani的警示:“技术进步的速度明显跑在了世界发展配套机制的能力之前。” 唯有将评估、验证、接地、泛化纳入统一框架,我们才能确保AI的自我提升,最终服务于人类文明的提升——这不仅是工程师的责任,也是每一位关注长期价值的投资者与研究者的认知起点。
文中观点仅为作者观点,不代表本平台立场
各位读者朋友,公众号改了推送规则,如果您还希望第一时间收到我们推送的文章,请记得给北大纵横公众号设置星标。
点击左下方公众号“北大纵横”→点击右上角“...”→点选“设为星标⭐️”