


当所有人都在为AI的“顿悟”狂欢时,真正的内幕却藏在冰冷的算力账单里。
你可能觉得智能是参数膨胀后的自然涌现,但事实是,它只是测试时计算(test-time compute)的线性堆叠与概率坍缩。
我也曾和你一样,被那些宏大叙事裹挟,在“模型即将觉醒”的焦虑与狂喜中反复内耗;
然而,当我们剥离掉营销滤镜,直视底层代码时,一切都会变得异常清晰。
关键在于,强化学习(RL)从来不是模型的装饰品,而是其认知架构的承重墙。

以上内容便是OpenAI强化学习基础团队负责人Dan Roberts的近期论述——
它像一把冷峻的解剖刀,直接划开了行业对“涌现论”的盲目崇拜。
首先,让我们重新定义“思考”。
在多数人的认知里,AI的思考是黑盒里的灵光乍现;
但是,从第一性原理出发,思考的本质是信息在时间维度上的迭代与修正。
传统监督学习(SFT)的内核是静态模仿,而强化学习的内核是动态试错与反馈闭环。
这意味着:
RL并非让模型“更听话”的补丁,而是赋予了模型在输出最终答案前生成中间Token的能力。
这些Token不是冗余字符,而是运行中的推理轨迹;
它们等同于人类解题时的草稿纸与演算笔记。
这里存在一个残酷的认知偏差:
许多人将预训练视为智能的全部,却忽略了预训练仅仅提供了高维的“知识图谱”,而RL才是激活图谱的“电流”。
没有RL的奖励信号引导,大模型只是概率分布的复读机;
有了RL的介入,模型才学会在Token空间中进行自我博弈与回溯修正。
因此,思考能力的规模化,根本不依赖参数量的盲目膨胀,而是依赖测试阶段算力的有效调度。
当我们对这一机制进行切片分析时,可以清晰地看到:
RLHF只是起点,真正的分水岭在于模型能否在推理阶段自主调用算力,完成多步逻辑推演。
换言之,RL将静态的参数预测,动态转化为可迭代的推理路径。
“规模扩大必然涌现智能”是过去十年最流行的叙事。
然而,这种论调本质上是一种认知偷懒。
Dan Roberts以物理学家的冷峻视角,直接刺破了这层泡沫。
他明确拒绝将推理能力视为GPT-4规模下的“顿悟”(grokking)。
相反,他提出:
思考规模化的正确路径,不是从小到大,而是从大到小。
这是一种典型的逆向工程与证伪思维。
当你面对庞大系统中出现的奇异现象,不要急于用“涌现”这种略带神秘性词汇来搪塞;
你应该将其置于手术台上,拆解为更小、更简单的玩具模型(toy examples)。
如果你能在简化系统中复现核心机制,你就真正理解了问题所在;
如果不能,说明你的理论框架存在根本性漏洞。
Kaplan与McCandlish的早期研究已经用数据证明,仅凭参数量与数据量即可精准预测损失函数的下降曲线;
缺失的一环,是从微观权重到宏观规律的统计力学映射。
这意味着:
真正的科学态度不是等待奇迹降临,而是主动降维,寻找连续性,而非迷信不连续性。
一方面,规模定律(Scaling Laws)是可被推导的有效描述;
另一方面,任何无法在简化模型中跑通的假设,都应被果断证伪。
当我们把“智能”从神坛拉回工程现实,就会发现:
它不是玄学,而是可被拆解、可被验证、可被优化的系统函数。
AI如何学会创新?
答案不在浪漫主义,而在强化学习经典的“探索(Explore)与利用(Exploit)”框架。
OpenAI团队在证伪埃尔德什猜想(Erdős conjecture)的过程中,展现了探索的极致形态。
模型在此场景中特立独行,花费数小时尝试不同路径,调用代数数论的庞大知识库,最终刺破人类长期坚信的数学直觉。
这是典型的反共识搜索,其底层逻辑是允许系统在低概率区域进行长周期试错。
然而,纯粹的探索是低效且昂贵的。
创新必须与利用交织。
Dan Roberts以MIT扑克锦标赛为例,揭示了利用的冷酷逻辑:
顶尖选手并非追求数学上的绝对最优解,而是精准榨取对手的心理弱点,建立动态的“心智理论”(theory of mind)。
在科学发现中,利用表现为对已有范式的极致压榨与迁移。
单位距离证明的后续推广,正是模型将特定属性数字的规律,精准复用到新场景的利用过程。
探索负责拓宽边界,利用负责深耕价值;两者的动态平衡,构成了 AI 创新的概率引擎。
AlphaGo的“第37手”之所以震撼,正是因为它在自我博弈中完成了探索与利用的无缝切换。
它没有遵循人类棋谱的惯性,而是在20%的算力用于探索未知分支、80%的算力用于利用已验证胜率之间,找到了最优的概率切分点。
不是盲目试错,而是基于反馈的定向收敛。
这也意味着,任何脱离概率框架的创新讨论,最终都会沦为空中楼阁。
拆解Dan Roberts的论述,我们得到的不是技术路线图,而是一套可迁移的决策框架。
面对复杂系统,我们必须坚持第一性原理:
回归基本事实,用从大到小的降维思维,寻找机制的连续性。
任何无法在简化模型中跑通的假设,都应被果断证伪。
在个人决策与组织战略中,拥抱探索与利用的动态平衡同样至关重要。
一方面,你要保留反共识的搜索空间,允许试错与长周期投入,忍受短期痛苦以换取长期复利;
另一方面,你必须建立敏锐的利用机制,快速榨取已验证路径的价值。
概率思维要求我们接受不确定性,但坚决拒绝随机性。
此外,语言即认知基础设施。无论是AI训练还是人类学习,结构化表达与逻辑推演是能力跃迁的锚点。
脱离语言框架的“直觉”,往往是认知偏差的温床。
未来6到12个月,AI在数学与科学领域的突破将呈指数级增长。
模型将逐步承担“研究品味”(research taste)的构建,甚至实现AI辅助AI的自举循环。
但这并非奇点降临的狂欢,而是工程化迭代的必然。
Dan Roberts曾以玩笑口吻推算,距离AI具备爱因斯坦级别的独立科研能力仅剩数年;
这并非科幻预言,而是算力翻倍时间与有效工作量的线性外推。
智能的演进,从不依赖顿悟的恩赐,只服从逻辑的解剖。
当我们剥离“涌现”的浪漫叙事,直视RL语言锚定的冷峻现实时,真正的认知升级才刚刚开始。
不要等待规模自动赐予答案;
主动降维、交叉验证、在探索与利用中保持锋利,才是应对不确定时代的唯一解法。
理性思考不是选项,而是生存底线。
下一次当你面对复杂决策时,请先问自己:
我是在用第一性原理拆解问题,还是在用“涌现”的幻觉自我安慰?
把系统思维刻进日常,让证伪成为习惯,你才能在概率的世界里,拿到长期主义的确定性筹码。

文中观点仅为作者观点,不代表本平台立场
