


信息时代的大爆炸,早已不再是数据的泛滥,而是认知结构的坍塌与重建。
当全球资本、工程师与创业者集体押注于大语言模型(LLM)的参数竞赛时,一种更深层的危机正在浮现:
我们正用语言的逻辑去模拟世界的逻辑,用离散符号去逼近连续现实。
这不仅是技术路径的偏差,更是对“智能”本质的根本误判。
对于个体而言,未来真正的竞争,从来不是人与人之间的算力比拼,而是人与范式之间的认知代差。
技艺已死,洞见为王。
谁能在LLM的喧嚣中看清智能的底层架构,谁就能在AI革命的下一波浪潮中占据高杠杆位置——
不是作为工具的使用者,而是作为新局的构建者。
今天的AI叙事几乎被LLM完全垄断。
GPT-4解数学题、Claude写万行代码、Llama系列开源引爆全球开发者社区——
这些成就无可否认,但它们共同掩盖了一个致命事实:
LLM的成功建立在一个高度受限的领域之上——
语言本身。
语言是离散的。
Token数量有限(约10万),预测下一个词本质上是一个高维分类问题。
神经网络只需输出概率分布,再通过采样生成连贯文本。
这种机制完美契合海量文本的统计规律,却与真实世界的运行逻辑格格不入。
现实世界是连续的、多模态的、充满噪声且高度不确定的。
你无法用“下一个像素”预测水瓶倾倒后的流体动力学;
无法用“下一个动作token”规划机器人在陌生厨房中安全取水的路径;
更无法用语言模型模拟干细胞如何分化为胰岛素分泌细胞。
LLM擅长的是从已有知识中重组答案,而非在未知环境中构建理解。
它能告诉你“洗车店离家100码该不该走过去”,却无法权衡天气、鞋损、时间成本、体力消耗等变量——
因为它没有世界模型,只有语言模型。
这种差异,决定了LLM注定是卓越的工具,而非真正的智能体。
LLM的局限并非偶然,而是其架构决定的必然结果。
从三个维度看,其缺陷具有系统性:
LLM完成任务的方式完全依赖训练数据中的统计模式,内部没有任何硬编码的安全机制。
你让它“清理/tmp目录”,它可能只删/tmp,也可能误删整个系统——
只要训练数据中存在类似“sudo rm -rf /”的错误示例,它就可能复现。
这不是 bug,而是架构原罪。
真正的智能体应具备目标驱动架构:
给定任务后,通过世界模型预测行动后果,再通过优化算法搜索满足成本函数的动作路径。
安全约束可作为底层目标函数嵌入,使其结构性无法违反。
而LLM没有这种能力,它永远存在“逃逸”可能——
总有一个prompt,能让它做出极其危险的行为。
人类17岁学开车,仅需20小时实操;
而自动驾驶系统即便拥有数百万小时驾驶数据,仍无法实现L5级自动驾驶。
差距何在?
在于因果推理能力的缺失。
当前机器人系统看似聪明,实则依赖海量人类操作数据进行模仿学习。
每学一个新任务,就要重新收集大量示范数据。
这种模式成本高、脆弱、难以泛化。
而基于世界模型的系统,能在抽象层级预测行为后果,从而实现零样本规划——
无需见过“拧开这个特定瓶子”的动作,只需理解“旋转力矩”“摩擦系数”等物理概念,即可推导出可行方案。
这才是真正的泛化:用极少数据解决大量新问题。
网上流传一个案例:
用户问“洗车店离家100码该不该走过去?”,多数LLM回答“应该”。
两周后,杨立昆再试,发现它们“学会”了正确答案。
原因很简单——
他的质疑被复制进训练数据,下一版模型自然“变聪明”。
这不是智能,而是高级记忆回放。
LLM的“进步”往往源于人类反馈的循环注入,而非内在推理能力的提升。
它无法提出新理论、新定义、新框架——
它只是个问题求解器,而非创造者。
真正的智能,必须能主动构建概念,而非被动复述已有知识。
既然LLM存在结构性缺陷,为何整个行业仍扎堆内卷?
答案在于商业逻辑与认知惯性的双重锁定。
OpenAI、Anthropic、Google DeepMind的商业模式建立在“闭源+API收费”之上。
只要扩大模型规模还能带来边际收益,就没有动力转向更高效但不确定的新范式。
于是我们看到:
- VLA(视觉-语言-动作)路线已被证明在复杂任务中失效,却仍有公司重金投入;
- 视频生成模型被用于合成训练数据,尽管其物理不真实;
- 强化学习被无限扩展,只为榨取最后一点性能提升。
这是一种典型的范式锁定:
路径依赖越深,转型成本越高。
正如Sun Microsystems曾坚信Solaris和专有硬件才是企业级计算的未来,却最终被Linux生态彻底击垮。
杨立昆将OpenAI比作“下一个Sun公司”,并非危言耸听——
平台终将走向开放,这是技术史的铁律。
替代方案已然出现:
JEPA(联合嵌入预测架构)+ 世界模型。
JEPA的核心思想是:
不在像素空间预测,而在抽象表征空间预测。
具体做法是将输入(如视频帧)送入两个编码器,一个处理原始输入,一个处理被破坏的输入(如遮挡、噪声),然后训练预测器用损坏输入的表征去预测原始输入的表征。
这种方法避免了“预测像素”的陷阱——
像素级预测不仅计算昂贵,且对噪声极度敏感。
更重要的是,它天然防止“表征塌缩”(即输出恒定向量的作弊解)。
DINO、I-JEPA、V-JEPA等模型已证明:
非生成式自监督学习在图像/视频表征上远超MAE等生成式方法。
而世界模型,则赋予系统预测自身行为后果的能力。
这是智能的核心——
没有它,任何规划、推理、优化都无从谈起。
工业控制、医疗模拟、机器人操作等高价值场景,正在倒逼行业寻找更可靠、更高效、更少数据依赖的解决方案。
杨立昆预言:“到2027年初,范式转变将对所有人变得显而易见。”
这不是空想,而是高杠杆内容的必然演进——
当物理世界的需求无法被语言模型满足时,新架构将自动胜出。
关于开源能否追上闭源,主流观点认为闭源凭借数据与算力优势将形成“逃逸速度”。
但杨立昆指出:“它们已经把公开文本数据用光了。”
如今,闭源公司要么高价购买版权数据,要么用合成数据训练——
后者存在严重分布偏移风险。
而开源生态的优势在于多样性、主权与协同进化。
Tapestry项目正是这一理念的实践:
通过联邦学习机制,各国可在不共享原始数据的前提下,共同训练一个“全人类知识仓库”。
每个国家保留数据主权,又能享受全球知识红利。
这正是AI作为基础设施的必然路径——
就像Linux击败Solaris,不是因为技术更先进,而是因为开放生态创造了指数级创新可能。
在信息主宰一切的时代,数据主权即认知主权。
谁掌握开放生态,谁就掌握下一代智能的定义权。
必须澄清一个关键事实:
杨立昆强调,“我对Llama没有任何技术贡献,完全没有。”
他唯一的角色,是在Meta内部高层辩论中强力推动Llama 2开源。
那场持续数月、涉及40位高管的会议,最终让Meta选择了开放,点燃了全球开源AI浪潮。
但他从未反对LLM研究——
FAIR团队自主推进Llama项目,他既未阻挠,也未主导。
他坚持的观点始终如一:
LLM是有用的工具,但不是通往人类级智能的道路。
这就像语音识别、机器翻译——
它们改变了世界,但从未接近智能的本质。
AI革命的本质,不是模型竞赛,而是认知范式的迁移。
LLM是信息时代的巅峰产物,但它无法承载物理世界的复杂性。
真正的智能,必须建立在世界模型、因果推理、目标驱动之上。
对个体而言,关键不是追逐热点,而是构建高杠杆认知:
- 看清LLM的边界,避免陷入“全能幻觉”;
- 关注JEPA、世界模型等下一代架构;
- 在开源生态中寻找主权与机会;
- 成为“知识资本家”,用洞见驾驭工具,而非被工具定义。
五年后,当JEPA架构成为工业标准,当世界模型驱动家用机器人走进千家万户,我们会回望今天——
那个所有人都在同一条战壕里挖掘的时代,不过是智能黎明前的最后一片黑暗。
而真正的赢家,早已跳出战壕,开始做局。

文中观点仅为作者观点,不代表本平台立场
