找工位
空间入驻
小程序

世界模型五大门派混战!谁将取代ChatGPT成为AI新王?

2026-04-17 17:46:27

ChatGPT写代码、做PPT样样精通,但你让它预测苹果落地的轨迹?它只会背课文!

这就是大语言模型的致命缺陷——它们读遍了互联网,却不懂物理世界的运行规律。

当AI大佬们意识到这个问题时,一场新的技术革命已经悄然爆发!

世界模型五大门派,谁将主宰AI未来?

最近几个月,AI圈发生了三件大事:

  • 图灵奖得主杨立昆的新公司AMI融资10.3亿美元,创欧洲AI种子轮纪录
  • 李飞飞的World Labs宣布10亿美元融资
  • 阿里巴巴发布世界模型快乐生蚝

这些看似不相关的新闻,背后都在竞逐同一个赛道:世界模型

杨立昆曾放狠话:「大语言模型在通往超级智能的路上是条死胡同。」

这话乍听刺耳,但细想有道理!ChatGPT能描述「苹果落地」,却不一定真正理解重力。问题的根源在于:大语言模型的训练数据是互联网文本,而真实世界是三维的、连续的、充满物理规律的。

Meta研究科学家Zhuokai Zhao在X上分享了世界模型的「五大门派」,今天我们就来深度解析这场AI新战争!

💡 JEPA派:杨立昆的「抽象哲学」

JEPA全称是Joint-Embedding Predictive Architecture(联合嵌入预测架构)。

简单说,JEPA想让AI像人类一样通过「观察」学习世界规律,而不是死记硬背像素或单词!

在杨立昆看来,像Sora这种模型是在「逐像素预测下一帧」。他认为这在物理上不可能——在充满随机性的世界里,你不可能精确预测每片树叶的飘落轨迹!

JEPA的解法很聪明:与其预测像素,不如在抽象的「表征空间」里做预测!

具体做法是先用编码器把视频转成抽象数学表示,然后在这个空间里预测「会发生什么」。比如预测「球会滚下桌子」这一更长期、更符合物理规律的结果,而不是重复预测球滚落的每一帧画面。

V-JEPA 2是目前这个路线的代表作!12亿参数,基于100万小时无标签视频预训练。最惊人的是,它仅需62小时机器人数据,就能实现零样本规划动作!在陌生环境处理陌生物体,成功率能达到65-80%!

对比传统机器人学习方法需要数千小时示范数据,V-JEPA 2对数据需求做到了极致压缩!

杨立昆的原话是:如果表征足够好,你就不需要为每个任务从头训练。

不过,创立AMI公司后,这位图灵奖得主也要面对现实。他说,AMI的商业化产品可能要几年后才能看到。这是一笔长线投资,但资本愿意赌!AMI已经拿到了10多亿美元融资,投资方包括几乎所有业界和跨界大佬。

🏗️ 空间智能派:李飞飞的「建筑师」路线

如果说JEPA关注「时间预测」,李飞飞的World Labs则盯上了另一个维度:「空间重建」!

这两条路线的分歧,从底层逻辑就开始了!

JEPA认为智能的核心是在抽象层面预测「接下来会发生什么」,所以不在乎像素级细节,追求高效因果推理。

李飞飞的出发点不一样!她认为,真正的智能需要对三维世界有显式理解,包括几何结构、深度关系、物体之间的相对位置。

换个方式讲:JEPA想教AI理解「球会从桌子上滚下去」这个规律,而World Labs想教AI理解「桌子有多高、球在什么位置、地板和桌子的距离是多少」。

前者关心事件的逻辑链条,后者关心空间的物理结构!

这种差异直接决定了产品形态!World Labs在2025年11月发布了首款产品Marble。输入文字描述、照片、视频甚至粗糙的3D草图,Marble输出的不是视频,而是一个可编辑、可导航、可导出的3D世界!

你可以在里面旋转视角、移动物体、改变光照条件,还能把结果导出为高斯溅射、三角网格或视频格式,直接拖进Unreal Engine或Unity里用!

这里有个容易被忽略的技术细节:很多视频生成模型能做出好看画面,但本质上是在逐帧「编故事」,前后帧之间没有统一的3D结构支撑。

而Marble生成的3D场景具备「空间一致性」!底层维护着真实的空间表示,所以转身回来,世界还是那个世界!

World Labs的团队配置也很强:联合创始人Ben Mildenhall是NeRF(Neural Radiance Fields)的发明者,重新定义了计算机视觉领域对3D重建的认知!另一位联创Christoph Lassner是3D图形专家。

这个团队的知识结构,决定了World Labs从一开始就在走「显式3D」路线,而不是从2D视频里「暗示」三维关系!

2026年2月,World Labs宣布完成10亿美元融资,投资方包括NVIDIA、AMD和Autodesk。Marble已经面向普通用户和商业场景推出,影视工作室、游戏开发者都在用它!

不过,Marble目前也有局限。生成的3D世界在走几步之后会出现视觉变形,出现「幻觉」。这跟JEPA路线追求的「理解物理规律」形成了对比:World Labs擅长重建空间的「样子」,但对空间中「会发生什么」的理解还比较薄弱。

李飞飞本人也坦承Marble只是第一步。她把最终目标定义为「空间智能」,意思是AI不光能看懂场景结构,还能在里面做推理、做规划、做交互。这条路还很长,但方向很明确!

🎮 学习型仿真派:DeepMind的「造梦师」

DeepMind的Genie 3,可能是目前最接近「魔法」的世界模型思路!

谷歌的路线跟前两派又有区别!它做的事情比「理解世界」和「重建空间」都更往前:制造出足够真实、可以实时交互的虚拟环境,让AI直接在里面练出真本事!

输入一句「在暴风雨中的威尼斯运河划船」,它就能生成一个720p、24fps的3D环境!你可以控制角色在里面移动、操作道具、甚至修改天气!

你打碎一个花瓶,碎片会留在地上。你走开再走回来,碎片还在那里!也就是说,Genie 3的「持久性」,从环境持久性进一步细化到了「对象持久性」!

但这对计算架构要求很高!DeepMind的研究主管Shlomi Fruchter说,要实现实时交互,模型需要每秒多次回溯查询一分钟前的信息。

这样的Genie 3,很像是一个运行中的游戏引擎!但要注意,它没有真正硬编码的物理引擎,所有的行为都是模型从训练数据中「学」到的!

这既是优势也是劣势!优势在于灵活性:模型自己能推断出物理属性和碰撞规则;劣势在于物理模拟仍然不如传统引擎精确。

至于持久性,受制于计算架构限制和算力压力,目前Genie 3只能维持几分钟的连贯性,之后画面就开始走样——这对于游戏是不可接受的。

到此为止,DeepMind也只是解决了「造出环境」,训练AI呢?那就要用到谷歌研发的另一个东西Dreamer了!

DreamerV4于2025年10月发表,是一个无需跟真实环境交互,完全在「想象」中学习的世界模型框架!

它成为第一个纯靠离线数据就在Minecraft里挖到钻石的AI!要知道,从零开始挖到钻石需要连续做出超过两万次精确操作,包括砍树、造工具、挖矿、冶炼,还要躲避怪物和处理各种突发情况!

之前OpenAI的VPT模型要完成类似任务,需要27万小时的标注视频加上19.4万小时的在线强化学习。DreamerV4用的数据量只有它的百分之一!

DeepMind目前在推动将「生成的环境」和「虚拟的智能体」进行结合,在完全虚拟但又完整闭环的环境里进行训练!

谷歌这条路线的核心赌注是:像素级别的生成虽然不等于物理理解,但如果生成的环境足够真实、足够多样化,在里面训练出来的智能体就有可能泛化到现实世界!这是一个还没有被证明的假设,也是这条路线最大的风险所在!

⚙️ 卖水卖铲子:英伟达的基建供应商

前面三条路线各有技术理想,但都面临同一个现实问题:世界模型训练需要极其庞大的数据量和算力!谁来提供这些基础条件?

英伟达的Cosmos平台就是在回答这个问题!它的定位很清楚:你们都在造世界模型?我来提供造世界模型的工具!

Cosmos包含几个核心组件!首先是数据处理管线Cosmos Curator,能在14天内处理2000万小时视频,加速世界模型的训练;而传统CPU方案处理这么多数据需要3年以上!

其次是视觉Tokenizer,就像大语言模型把文字切分成「词元」来处理,世界模型需要把视频帧切分成某种可计算的表征!Cosmos的Tokenizer压缩率比业界方案高8倍,支持多种视频比例和时长,能处理从机器人第一视角到自动驾驶鱼眼镜头的各种格式!

最后是最关键的三种预训练模型家族:负责预测环境未来状态的预测模型Cosmos Predict、将模拟迁移到真实的仿真模型Cosmos Transfer,以及负责让机器人做规划的推理模型Cosmos Reason!这些预训练模型都通过开放许可证发布,开发者可以免费下载!

自从2025年1月在CES上发布后,Cosmos迭代飞速!目前仿真模型和推理模型已经进化到第二代,Predict到了2.5代!小鹏在用Cosmos做自动驾驶仿真,Figure AI等硅谷头部机器人公司也在用它生成训练数据!

背后还是英伟达的老套路:用免费开放软件来锁定硬件生态!用Cosmos来训练世界模型,最后还是需要英伟达的H、Jetson等平台,以及CUDA生态!

黄仁勋在CES上的原话是:世界基础模型之于物理AI,就像大语言模型之于生成式AI!

他押注的是,世界模型会像大语言模型一样,变成一个巨大且对世界带来显著变革的赛道,而英伟达要确保的是,不管谁最终胜出,手里拿着的都是N家的铲子!

🧠 主动推断派:来自神经科学的「异端」

并不是所有人都在走深度学习的主流路线来实现世界模型!这个赛道上还有「异端」!

代表公司Verses的首席科学家卡尔·弗里斯顿来自于神经科学领域,他是「自由能原理」的提出者,Google Scholar引用量在神经科学领域排名很靠前!

这个理论的大意是:所有生物系统的行为,本质上都在做一件事情,即不断生成对外界的预测,然后采取行动来减少预测和现实之间的偏差!

这跟主流AI的思路有什么区别?

强化学习,也即当今主流方向,其核心逻辑是「奖励最大化」:给AI设一个目标,让它试错以找到最优策略!Friston的主动推断框架,追求的却是「减少意外」!

如果非要简化形容:一个是逐利,一个是避险!

一个直观的比喻:强化学习像是一个被胡萝卜引导的驴子,朝着奖励的方向走!主动推断像是一个在陌生城市里的旅行者,不断修正自己对这座城市的心理地图,让自己对下一个路口的预期尽量准确!前者是被目标驱动的,后者是被好奇心和不确定性驱动的!

基于这个理论,Verses开发了AXIOM框架!

它有两大特点:首先是对象中心化,即世界由离散对象组成,每个对象有属性、有关系!深度学习通常把一个场景处理为一个高维向量,不会显式区分场景里的具体物体!而AXIOM把世界建模为离散对象组成的结构,每个对象有属性、有和其他对象的关系!

这种处理方式更接近人类的认知方式:我们看一个房间,不是在处理像素矩阵,而是在识别「椅子在桌子旁边、窗帘是拉开的」这些结构化的关系!

其次是贝叶斯推理:用概率分布表示信念,通过消息传递更新,而非梯度下降!

举个例子,基于AXIOM框架