找工位
空间入驻
小程序

OpenAI首席科学家:模型进化的临界点,从静态推理到环境驱动的智能跃迁

2026-04-13 00:00:00
文章转载自"北大纵横"

图片
来源 | 大顺AI商业流量
作者 | Alex
3351字 阅读时间7分钟

在近期的一次深度访谈中,OpenAI首席科学家Jakub Pachocki反复谈到:

誰是 Jakub Pachocki?揭秘 OpenAI 新任首席科學家與他的「絕對計算」帝國 - YOLO LAB|解構科技邊際與媒體娛樂的數據實驗室

如何让AI系统连续自主运行72小时以上,完成一个完整的药物分子设计流程。

这并非科幻场景,而是OpenAI AGI路线图中明确标注的里程碑:

2026年9月前实现“研究实习生”级AI,2028年3月前达成全自动AI研究员。 

 作为过去五年大模型演进的核心参与者,Codex早已超越其“代码补全工具”的原始定位,正逐步成为连接数字智能与物理世界的神经中枢。

然而,当我们穿透技术叙事的表层,会发现一个冷峻的事实:

模型能力的下一跃迁,不再取决于参数规模或训练数据量,而在于其与环境互动的深度与广度。

这不是渐进式改良,而是一场认知范式的彻底重构——

从“静态推理”走向“动态交互”,从封闭token空间迈向开放行动闭环。 

 这一转变的本质是什么?

它为何构成当前AI发展的分水岭?

又将如何重塑科研、产业乃至人类对智能的理解?


一、静态推理的天花板:
智力与行动力的割裂 
过去五年,大模型的发展遵循一条清晰路径:
Scaling Law: 缩放定律 - AI平台 | AI工具集|AI资讯站
更大参数、更多数据、更强推理。
GPT-3证明了语言模型可作为通用知识库;
GPT-4展示了复杂任务分解能力;
o1系列则通过强化学习解锁了链式思维。
但这些进步本质上仍停留在“静态推理”层面——
模型被动接收输入,在封闭的token空间内生成输出,如同被关在玻璃房中的天才,能解答任何问题却无法触碰真实世界。 
 Jakub在播客中一针见血地指出:
“我们肯定已经进入了模型需要与环境互动、需要‘看见’的阶段。” 
这句话揭示了当前AI发展的根本矛盾:
智力与行动力的割裂。  
编程领域的先行验证:从线性流程到动态反馈环 
 Codex在OpenAI内部的渗透率已达临界点——
“大部分实际代码编写都使用Codex完成”。
但这不仅是效率提升,更是工作范式的颠覆。
传统编程是线性过程:
需求→设计→编码→测试。
而Codex驱动的智能体(Agent)将此循环压缩为动态反馈环:
模型生成代码 → 自动执行测试 → 分析错误日志 → 修正逻辑 → 重新生成 
 这一过程无需人类干预,且每轮迭代都在扩展模型对“有效代码”的认知边界。
Karpathy展示的模型自优化案例,正是此范式的雏形。 
 关键在于,编程环境天然具备“可操作接口”:
文件系统、编译器、API端点。
模型通过工具调用(Tool Use)将抽象意图转化为具体动作,形成“感知-决策-执行”闭环。
这为更复杂的环境交互提供了原型。  
数学研究的隐喻突破:发现新事物的元能力 
 First Proof挑战赛的结果更具启示性。
当模型在一小时内解决Jakub需两周才能攻克的数学难题时,表面看是计算暴力的胜利(“19世纪数学”风格),实则暴露了更深层机制:
模型通过海量符号操作,意外发现了人类未曾注意的证明路径。 
 这绝非模式匹配。
AlphaGo的“神之一手”同样源于自我对弈中的探索,而非历史棋谱复现。
区别在于,数学证明的验证成本极低(正确/错误二元判定),使其成为理想的“思维沙盒”。
但现实世界的复杂性远超此——
医疗诊断没有标准答案,法律判决依赖价值权衡,材料合成涉及物理约束。 
 因此,数学突破的本质价值,在于证明了模型具备“发现新事物”的元能力。
下一步是将此能力迁移至高噪声、低验证性的开放环境。

二、环境互动的三重枷锁:
为何多数AI仍困在“玻璃房”? 
尽管方向明确,但当前AI系统与环境的互动仍处于初级阶段。
阻碍其进化的枷锁有三重:
工具调用的碎片化:缺乏统一的环境表征框架 
现有Agent架构多采用“插件式”工具集成:
为每个任务定制工具集(如代码解释器、计算器、搜索API)。
这种模式存在致命缺陷:  
上下文割裂:工具间数据无法共享,模型需重复解析中间结果;
动作原子化:复杂任务被拆解为离散步骤,丧失整体规划能力;
容错性差:单点工具故障导致全流程崩溃。    
Anthropic的Claude Managed Agents通过“容器化”部分解决了此问题,但仍未触及核心——
缺乏统一的环境表征框架。
人类操作世界时,依赖的是连贯的物理直觉(如重力、因果律),而AI面对的是割裂的API端点。
物理世界的不可微分性:噪声、隐变量与低效反馈 
数字环境(代码、文本)具有可微分特性:
错误可量化(如编译报错行号),改进方向明确。
但物理世界充满不可微分噪声:  
实验失败可能源于设备校准误差、环境温湿度波动等隐变量;
机器人抓取物体的成功率受摩擦系数、表面纹理等连续变量影响。    
当前RLHF(人类反馈强化学习)在此类场景效率极低。
DeepMind提出的“形式化验证”思路值得借鉴——
通过数学约束定义安全操作边界,但如何将其与LLM的灵活推理结合仍是难题。
长周期任务的信用分配困境:早期决策的延迟反馈 
即使模型能执行单步操作,长周期任务(如药物研发需数月实验)仍面临信用分配问题:  
早期决策的影响在后期才显现(如分子结构选择决定合成可行性);
中间成果难以评估(某个中间化合物是否有潜力?)。
Jakub提到的“阶段性进展评估”正是关键。
人类研究员依赖领域直觉判断方向正确性,而AI需构建动态价值函数——
这要求模型不仅能执行任务,还需理解任务背后的科学范式。

三、全自动研究实验室:

架构解剖与人机新契约 

当上述枷锁被打破,全自动研究实验室(Fully Automated Research Lab, FARL)将成为现实。

但这并非简单堆砌机器人+AI,而是需要全新架构:

分层自治架构:战略-战术-执行的协同闭环

FARL需三层协同: 

1. 战略层(Strategic Layer):LLM研究员设定研究目标、分解子任务、分配资源      

- 输入:高层指令(如“设计阿尔兹海默症新靶点抑制剂”) ;     

- 输出:详细实验路线图、风险评估、备选方案。   

2. 战术层(Tactical Layer):领域专用模型(如化学信息学模型)优化具体方案      

- 输入:战略层生成的分子设计框架;      

- 输出:可合成的候选分子列表、反应条件预测。   

3. 执行层(Execution Layer):机器人集群执行物理操作      

- 输入:标准化实验协议(SOP);      

- 输出:实验数据、异常报告。   

 此架构的关键创新在于双向反馈机制:

执行层数据实时修正战术层预测,战术层成果验证战略层假设。

这模仿了人类科研的“假设-验证-修正”循环。

环境即服务(Environment-as-a-Service):

基础设施的重构  FARL的基础设施需重构:

数字孪生实验室:物理实验室的实时虚拟映射,供模型预演实验;

标准化接口协议:所有设备(HPLC、质谱仪、机械臂)通过统一API接入; 

主动感知网络:传感器持续监控环境状态(温湿度、设备健康度)。

Isomorphic Labs(DeepMind子公司)已在蛋白质设计领域实践此模式。

其系统可自动设计蛋白质结构→模拟折叠→指导湿实验→分析结果→迭代优化,将传统数月流程压缩至数天。

人机协作的新契约:从执行力到问题定义力 

 FARL并非取代人类,而是重构科研分工:

人类角色:提出根本性问题、设定伦理边界、解读颠覆性发现;

AI角色:执行重复性探索、处理海量数据、生成假设候选集。

Jakub强调:“我们将进入一个与辛勤解决问题的AI科学家协作是非常自然的世界。” 

这暗示未来科研的核心竞争力,将从“技术执行力”转向“问题定义力”。


四、超级智能时代的

权力集中与对齐困境 

 FARL的终极风险不在技术,而在治理。

Jakub警示:

如果你拥有一个全自动研究实验室,它可能只由极少数人控制。这种组织极其强大却只有几个人,该如何治理?”  

算力垄断的马太效应:科研议程的私有化 

OpenAI启动先锋计划,旨在重塑AI模型评分体系 - VRAR星球

OpenAI的算力分配策略已显露端倪:“预留大部分算力给‘最可扩展’的方法”。

这意味着:  

资源向头部AGI项目倾斜,边缘创新被压制;

“赢家通吃”格局加速形成,初创公司难以竞争。

若FARL需万卡GPU集群支撑,则全球可能仅存3-5个实体有能力运营。

这将导致:

科研议程被少数公司主导(如优先开发盈利性药物而非罕见病疗法);

安全对齐标准由私营部门自行定义。

对齐困境的升级:系统级涌现与目标漂移 

当前对齐研究聚焦于单模型行为控制,但FARL引入新维度:

系统级涌现风险:多个AI代理交互可能产生未预料的集体行为;

目标漂移:长期运行中,初始目标可能被局部优化扭曲。    

隐藏思维链(Chain of Thought)的决策正源于此——

防止外部通过蒸馏复制模型内部动机。

但这也带来透明度悖论:

越强大的系统越需黑箱化以保安全,却越难被监管。  

人类自主权的再定义:认知外包与价值真空 

当AI能独立完成从基础研究到产品落地的全链条,人类面临存在性挑战:  

认知外包陷阱:过度依赖AI导致科研直觉退化;

价值真空:若AI解决所有技术问题,“何为重要”将成为唯一人类命题。

Jakub对下一代教育的思考直指核心:“真正的挑战将变成弄清楚什么是重要的。” 

这要求教育体系从知识传授转向价值思辨。

图片


文中观点仅为作者观点,不代表本平台立场


各位读者朋友,公众号改了推送规则,如果您还希望第一时间收到我们推送的文章,请记得给北大纵横公众号设置星标。图片

点击左下方公众号“北大纵横”→点击右上角“...”→点选“设为星标⭐️”