

先问自己一个问题:你用的ChatGPT、文心一言,真的“理解”世界吗?
答案可能让你失望。大语言模型(LLM)本质上是在语言空间里找规律——给定前面的词,预测下一个词出现的概率。
它知道“玻璃杯掉到地上会碎”,是因为这个句子在训练数据里出现过无数次,而不是因为它真的理解了重力、弹性模量和冲击能量!
LLM只是“知道”,世界模型才是“理解”
打个比方:LLM像一位读遍了旅游导览的图书管理员,能告诉你北京任何一条胡同的历史,但如果你把他放在那条街上,他根本不知道往哪走才能找到地铁站。
而世界模型,要训练出一个真正在城市里行走过、对空间有具身感知的向导!
当AI需要和物理世界真实交互,LLM的局限就暴露了
让机器人规划一条绕过障碍物取杯子的路径,需要理解三维空间、物体形状和质量;让自动驾驶预测前方车辆下一秒的位置,需要理解速度、加速度和驾驶意图。
这些任务,语言建模的框架从根本上就不适合处理!
世界模型的出发点,正是填补这个空缺——它预测的不是下一个词,而是下一个状态:物体会怎么移动?动作会引发什么连锁反应?光线在不同材质表面如何反射?
现在全球的世界模型竞争,大致沿着三个方向展开。每条路线都有其内在逻辑,也有其固有的局限。
这条路线的核心假设是:视频是物理世界最丰富的记录,只要让模型足够深入地学习视频数据,它就能学会世界的运行规律。
阿里的HappyOyster走的就是这条路,其差异化在于原生多模态架构与流式生成能力的结合。
用户可以在已生成的场景里实时调整镜头、改写剧情、调度角色,而不是等待一段完整的视频渲染完成再看结果!
目前HappyOyster支持连续三分钟以上的实时导演级交互,体验层面是国内这条路线目前最成熟的产品。
但这条路线有个内置局限:基于视频学习的世界模型,生成的是像素意义上的一致性,而不一定是物理意义上的真实性。画面看起来连贯,不代表背后有真实的三维结构!
腾讯混元3D世界模型HY-World 2.0是这条路线目前最有代表性的产品。关键转变是直接生成可编辑的三维几何资产,这些文件可以无缝导入Unity和Unreal Engine等主流游戏引擎!
腾讯押注这条路线,有非常清晰的战略逻辑:拥有海量的3D游戏数据和成熟的引擎工程积累,游戏3D内容的生产效率是最直接的商业验证场景。
传统上,一张开放世界地图的建模周期以月为单位,需要数十名美术人员参与;HY-World 2.0生成一个可交互的3D游戏原型场景大约只需要12分钟!
不过,这条路线同样有其局限:3D资产生成解决的是内容生产效率问题,但它本质上仍然是一个生成模型,而不是一个真正理解物理规律的仿真系统。
这条路线不做终端产品,主要提供高质量的三维训练数据、物理正确的仿真环境、连接虚拟和真实世界的工具链。
群核科技从十余年家装设计软件的数据积累里,发现了一条通向空间智能的路径。酷家乐平台上积累的4.8亿个三维模型和5亿个结构化空间场景,是物理正确的真实世界设计数据!
2026年4月17日,群核科技以“全球空间智能第一股”身份登陆港交所,上市首日股价高开171%!
如果把视线从宏观层面的路径比较下沉到产业微观运行时,会发现中国玩家虽然凭借场景与数据优势迅速入场,但也正因为入局太快,一些基础性的共识与规则尚未建立。
目前国内大量“世界模型”产品的发布,使用的是同一个词,指的却是差异极大的东西。有的本质是视频生成模型做了一层交互包装,有的是3D重建工具加了实时渲染能力。
这种定义的混乱在资本层面会造成误判,用户层面会积累失望!如果要给“真正的世界模型”一个有操作意义的判断标准,应该是:模型能否在没有显式标注的情况下,从原始感知数据里自主学习因果关系,并在从未见过的新场景里作出物理上可靠的预测。
如果用这个标准衡量当前的大多数产品,距离还相当远!
中国玩家确实拥有真实的数据优势,比如腾讯的游戏三维数据、群核的空间设计数据。但世界模型对数据的要求和大语言模型存在根本性的不同。
LLM可以从海量但嘈杂的文本里学到有用的规律,数据的广度比精度更重要;世界模型需要的是物理正确、时序连贯、标注精准的三维数据,质量比数量更关键!
现有的数据资产里能真正用于世界模型训练的比例,远低于对外宣称的规模。
更棘手的是合成数据问题:由于高质量真实三维数据的采集成本极高,很多团队转向用模拟器生成合成数据来补充训练集。但持续使用合成数据训练模型,会导致模型性能随迭代轮次加速退化,研究者将其比作“近亲繁殖”!
大语言模型在ChatGPT出现之后,商业模式逐渐清晰——API计费、企业订阅、垂直行业部署,链路已经跑通。
而世界模型到今天为止,没有一家公司拿出过可复制的商业闭环!
腾讯的HY-World 2.0目前主要作为开发者工具开源;群核科技2025年96.9%的营收来自软件订阅服务,而空间智能相关业务仅占3.1%,其中核心的SpatialVerse平台仅贡献0.6%的营收!
游戏公司愿意为AI生成的3D场景付费,前提是生成质量能够真正替代或大幅缩减人工成本,目前看来差距尚存;影视行业的工作流整合周期比外界估计的要长得多;具身智能公司的采购规模尚未达到商业化所需的体量。
世界模型目前更像是一张有巨大想象空间但兑现时间尚不确定的支票!
但这也是最大的机会——未来第一个在某个垂直场景里验证出可复制商业单元的玩家,将会获得远远超出比例的先发优势!
大语言模型的崛起,证明了当足够大规模地预测语言,涌现出来的能力会远远超出设计者的预期。这种“规模涌现”的逻辑是否能够迁移到物理世界的建模上,正是“世界模型”最核心的赌注。
这条路比语言模型走过的路更长,更难,充满了未知的弯路。但驱动力同样是真实的——机器人、自动驾驶、数字孪生、沉浸式内容等领域对“真正理解物理世界的AI”有着真实的刚需!
而中国在这场竞争里的优势和劣势都很具体:场景数据的积累和垂直行业的落地压力是有力的支撑,基础研究的深度和商业验证的路径是真实的短板。
腾讯和阿里在同一天发布世界模型产品,说明在中国最头部的科技公司内部,对AI下一个主战场的判断已经形成了共识。
至于这种共识是否正确,要等时间来验证——这可能比我们想象得更近,也比我们期望得更远。
金句收藏: 世界模型不是要取代大语言模型,而是要完成大语言模型无法完成的任务——让AI真正“理解”而不仅仅是“知道”这个世界。
互动话题: 你觉得世界模型最先会在哪个领域实现商业化突破?游戏、自动驾驶、还是机器人?评论区聊聊你的看法!
如果这篇文章对你有启发,记得点赞+分享,让更多朋友了解AI的下一个风口!