OpenAI RL负责人：拒绝涌现论，思考规模化的方法是从大到小？让RL奏效的基石是语言

2026-06-14 00:00:00

文章转载自"北大纵横"

来源 | 大顺AI商业流量

作者 | Alex

2549字阅读时间6分钟

当所有人都在为AI的“顿悟”狂欢时，真正的内幕却藏在冰冷的算力账单里。

你可能觉得智能是参数膨胀后的自然涌现，但事实是，它只是测试时计算（test-time compute）的线性堆叠与概率坍缩。

我也曾和你一样，被那些宏大叙事裹挟，在“模型即将觉醒”的焦虑与狂喜中反复内耗；

然而，当我们剥离掉营销滤镜，直视底层代码时，一切都会变得异常清晰。

关键在于，强化学习（RL）从来不是模型的装饰品，而是其认知架构的承重墙。

以上内容便是OpenAI强化学习基础团队负责人Dan Roberts的近期论述——

它像一把冷峻的解剖刀，直接划开了行业对“涌现论”的盲目崇拜。

1. RL 不是微调补丁，而是思考的生成器

首先，让我们重新定义“思考”。

在多数人的认知里，AI的思考是黑盒里的灵光乍现；

但是，从第一性原理出发，思考的本质是信息在时间维度上的迭代与修正。

传统监督学习（SFT）的内核是静态模仿，而强化学习的内核是动态试错与反馈闭环。

这意味着：

RL并非让模型“更听话”的补丁，而是赋予了模型在输出最终答案前生成中间Token的能力。

这些Token不是冗余字符，而是运行中的推理轨迹；

它们等同于人类解题时的草稿纸与演算笔记。

这里存在一个残酷的认知偏差：

许多人将预训练视为智能的全部，却忽略了预训练仅仅提供了高维的“知识图谱”，而RL才是激活图谱的“电流”。

没有RL的奖励信号引导，大模型只是概率分布的复读机；

有了RL的介入，模型才学会在Token空间中进行自我博弈与回溯修正。

因此，思考能力的规模化，根本不依赖参数量的盲目膨胀，而是依赖测试阶段算力的有效调度。

当我们对这一机制进行切片分析时，可以清晰地看到：

RLHF只是起点，真正的分水岭在于模型能否在推理阶段自主调用算力，完成多步逻辑推演。

换言之，RL将静态的参数预测，动态转化为可迭代的推理路径。

2. 拒绝“涌现”神话，从大到小的证伪路径

“规模扩大必然涌现智能”是过去十年最流行的叙事。

然而，这种论调本质上是一种认知偷懒。

Dan Roberts以物理学家的冷峻视角，直接刺破了这层泡沫。

他明确拒绝将推理能力视为GPT-4规模下的“顿悟”（grokking）。

相反，他提出：

思考规模化的正确路径，不是从小到大，而是从大到小。

这是一种典型的逆向工程与证伪思维。

当你面对庞大系统中出现的奇异现象，不要急于用“涌现”这种略带神秘性词汇来搪塞；

你应该将其置于手术台上，拆解为更小、更简单的玩具模型（toy examples）。

如果你能在简化系统中复现核心机制，你就真正理解了问题所在；

如果不能，说明你的理论框架存在根本性漏洞。

Kaplan与McCandlish的早期研究已经用数据证明，仅凭参数量与数据量即可精准预测损失函数的下降曲线；

缺失的一环，是从微观权重到宏观规律的统计力学映射。

这意味着：

真正的科学态度不是等待奇迹降临，而是主动降维，寻找连续性，而非迷信不连续性。

一方面，规模定律（Scaling Laws）是可被推导的有效描述；

另一方面，任何无法在简化模型中跑通的假设，都应被果断证伪。

当我们把“智能”从神坛拉回工程现实，就会发现：

它不是玄学，而是可被拆解、可被验证、可被优化的系统函数。

3. 创新机制：探索与利用的概率博弈

AI如何学会创新？

答案不在浪漫主义，而在强化学习经典的“探索（Explore）与利用（Exploit）”框架。

OpenAI团队在证伪埃尔德什猜想（Erdős conjecture）的过程中，展现了探索的极致形态。

模型在此场景中特立独行，花费数小时尝试不同路径，调用代数数论的庞大知识库，最终刺破人类长期坚信的数学直觉。

这是典型的反共识搜索，其底层逻辑是允许系统在低概率区域进行长周期试错。

然而，纯粹的探索是低效且昂贵的。

创新必须与利用交织。

Dan Roberts以MIT扑克锦标赛为例，揭示了利用的冷酷逻辑：

顶尖选手并非追求数学上的绝对最优解，而是精准榨取对手的心理弱点，建立动态的“心智理论”（theory of mind）。

在科学发现中，利用表现为对已有范式的极致压榨与迁移。

单位距离证明的后续推广，正是模型将特定属性数字的规律，精准复用到新场景的利用过程。

探索负责拓宽边界，利用负责深耕价值；两者的动态平衡，构成了 AI 创新的概率引擎。

AlphaGo的“第37手”之所以震撼，正是因为它在自我博弈中完成了探索与利用的无缝切换。

它没有遵循人类棋谱的惯性，而是在20%的算力用于探索未知分支、80%的算力用于利用已验证胜率之间，找到了最优的概率切分点。

不是盲目试错，而是基于反馈的定向收敛。

这也意味着，任何脱离概率框架的创新讨论，最终都会沦为空中楼阁。

4. 第一性原理下的行动指南

拆解Dan Roberts的论述，我们得到的不是技术路线图，而是一套可迁移的决策框架。

面对复杂系统，我们必须坚持第一性原理：

回归基本事实，用从大到小的降维思维，寻找机制的连续性。

任何无法在简化模型中跑通的假设，都应被果断证伪。

在个人决策与组织战略中，拥抱探索与利用的动态平衡同样至关重要。

一方面，你要保留反共识的搜索空间，允许试错与长周期投入，忍受短期痛苦以换取长期复利；

另一方面，你必须建立敏锐的利用机制，快速榨取已验证路径的价值。

概率思维要求我们接受不确定性，但坚决拒绝随机性。

此外，语言即认知基础设施。无论是AI训练还是人类学习，结构化表达与逻辑推演是能力跃迁的锚点。

脱离语言框架的“直觉”，往往是认知偏差的温床。

未来6到12个月，AI在数学与科学领域的突破将呈指数级增长。

模型将逐步承担“研究品味”（research taste）的构建，甚至实现AI辅助AI的自举循环。

但这并非奇点降临的狂欢，而是工程化迭代的必然。

Dan Roberts曾以玩笑口吻推算，距离AI具备爱因斯坦级别的独立科研能力仅剩数年；

这并非科幻预言，而是算力翻倍时间与有效工作量的线性外推。

智能的演进，从不依赖顿悟的恩赐，只服从逻辑的解剖。

当我们剥离“涌现”的浪漫叙事，直视RL语言锚定的冷峻现实时，真正的认知升级才刚刚开始。

不要等待规模自动赐予答案；

主动降维、交叉验证、在探索与利用中保持锋利，才是应对不确定时代的唯一解法。

理性思考不是选项，而是生存底线。

下一次当你面对复杂决策时，请先问自己：

我是在用第一性原理拆解问题，还是在用“涌现”的幻觉自我安慰？

把系统思维刻进日常，让证伪成为习惯，你才能在概率的世界里，拿到长期主义的确定性筹码。

文中观点仅为作者观点，不代表本平台立场

各位读者朋友，公众号改了推送规则，如果您还希望第一时间收到我们推送的文章，请记得给北大纵横公众号设置星标。

点击左下方公众号“北大纵横”→点击右上角“...”→点选“设为星标⭐️”

上一篇：经济越差，越要疯狂做这5件事

下一篇：市值暴增790亿！PCB“卖铲人”大族激光，赚麻了

热点资讯

历届鲁迅文学奖获奖作品名单

2024-09-02 00:00:00

【快讯】广州市委常委、黄埔区委书记陈杰一行调研蜜蜂科技BEEPLUS

2023-09-01 00:00:00

12年，从22亿到超过520亿，海底捞谋局千亿背后的战略解码

2024-05-16 00:00:00

2025年深圳注册公司全流程指南：一步到位

2025-05-20 00:00:00

【2024新一线城市名单出炉】三大角度解析《新一线城市魅力排行榜》榜单

2024-06-07 00:00:00

超过海尔、格力上千亿，3737亿的美的，全球第一背后的战略解码（万字深度长文）

2024-10-04 00:00:00

全网开骂的武汉“孕妇选美比赛”，撕开了当下社会最离谱的一幕

2024-11-18 00:00:00