图灵奖得主与AI教母的10亿美元“赌局”:世界模型正分裂为这六大流派
(来源:图灵人工智能)
您想知道的人工智能干货,第一时间送达
转自深蓝具身智能,仅用于学术分享,如有侵权留言删除
图灵奖得出杨立昆Yann LeCun从Meta离职后,其担任执行主席的AMI Labs于3月10日官宣融资10.3亿美金,押注世界模型赛道;而就在前不久,李飞飞的World Labs也融资了10亿美金。
那就趁这个机会盘点一下我所知道的世界模型赛道里的几个主要流派和代表产品。
期待2026年这个方向上的更多进展。
我们开设此账号,想要向各位对【具身智能】感兴趣的人传递前沿权威的知识讯息外,也想和大家一起见证它到底是泡沫还是又一场热浪?
目前这个赛道的主流选手要么是大厂,要么是最有影响力的学者带队的超高融资startup,借着这个机会,浅浅盘点一下我所了解的世界模型的不同流派(感谢Claude老师的很多补充)。

流派一:联合嵌入预测架构(JEPA)
代表:AMI Labs (Yann LeCun )、Meta V-JEPA 2
JEPA由LeCun于2022年提出,它的创新在于:
不在像素空间做预测,而在抽象表示空间做预测。
普通的生成式Al试图预测“未来的每一个像素”,这在一个充满不确定性的物理世界里是注定失败的,没有人能够精确预测“风吹树叶”的每一个细节。
JEPA的思路是:我不需要预测细节,我只需要在更高维度的表现上来理解“会发生什么”。
就像人类看完天气预报去理解“明天天气会怎样”时,我们并不会在脑子里生成一张逐像素的图像,而是形成“大概会下雨,气温偏低”这样的抽象预期。
Meta基于这一思路发布了V-JEPA 2,拥有12亿参数,能够理解并预测陌生物体和环境的动态。
而AMILabs的目标是在此基础上推进商业落地,优先进入医疗、机器人、可穿戴设备和工业自动化。

流派二:空间智能(3DWorldModel)
代表:WorldLabs(李飞飞)
如果说JEPA的方向是去“理解世界的物理规律”,李飞飞的方向则是“重建和生成三维世界”。
World Labs于2025年11月推出了Marble,这也是目前最成熟的商业化World Model产品。
Marble 能从文本描述、照片、视频、3D布局甚至全景图,生成持久的、可编辑的、可下载的三维环境。
其核心叙事是“空间智能”,认为世界模型不只是预测下一帧视频,而是让AI真正理解三维空间的结构和关系。

流派三:生成式视频(交互仿真派)
代表:Google DeepMind(Genie 系列)、Runway GWM-1
这条路线的逻辑是:
如果你能生成一个物理上自洽的、可交互的世界,AI就在这个过程中学会了世界的运作规律。
Genie3发布于2025年8月,这是业界第一个实时交互的通用World Model,能以24fps生成可持续导航的3D环境。
Genie3没有硬编码的物理引擎(比如Unity或UnrealEngine那种硬编码的碰撞检测、重力逻辑),模型通过训练自行习得世界如何运作,用文本提示就能生成动态的、视觉上一致的交互环境。
另外一个头部玩家Runway在2025年12月也推出了GWM-1,与Genie3早期侧重于平台跳跃类游戏不同,GWM-1强调的是多模态的通用性,在机器人和医疗领域有着重要价值。

流派四:物理AI基础设施(仿真平台派)
代表:NVIDIA Cosmos
NVIDIA延续了在AI领域卖铲子的思路,不做世界模型本身,而是做所有世界模型都需要的基础设施。
Cosmos平台发布于2025年1月,黄仁勋在当时GTC的演讲上也给了它不小的篇幅(当时为了审核一个他演讲稿的summary,这个演讲视频是我看的最认真的)。
这个平台覆盖了数据处理、模型训练、仿真评估全流程,基于9000万亿token、2000万小时真实世界的视频数据训练,覆盖了驾驶场景、工业环境、机器人操作等。
Cosmos包含三个模型系列。
Cosmos Predict(预测模型)
也就是通常说的“视频预测”。给定当前的场景和动作,它能预演未来几秒甚至几分钟会发生什么,可以在自动驾驶和机器人训练中的“长尾场景”(如车祸、极端天气)提供数据。
Cosmos Transfer(迁移模型)
这个模型专门用于解决Sim-to-Real(仿真到现实)的技术Gap。
Cosmos Reason(推理模型)
这是Cosmos最硬核的部分,将大语言模型的推理能力引入到了物理世界。

流派五:潜空间强化学习
代表:DeepMind + 学术界(Dreamer V3/4、MuZero)
这是来自强化学习社区的经典路线,思路非常直接,让AI在自己想象的世界里训练,而不是在现实世界里试错。
Agent首先学习一个"潜空间世界模型",然后在这个内部模拟的世界里进行大量规划和试验,最后把学到的策略应用到真实环境,这可以有效降低在物理世界学习与收集数据的成本,对自动驾驶的训练效率有重要意义。

流派六:主动推断
代表:VERSES Al (Karl Friston)
这是最小众的路线,来自神经科学和贝叶斯认知理论。(说实话,如果不是今天整理这篇文章的资料,我也没有听说过。)
这一路线的核心思想来自KarlFriston的“自由能原理”:
大脑不是被动地处理感知信号,而是主动地生成对世界的预测,并持续最小化预测误差。
也就是说真正的智能不应该只是对刺激做出反应,而是能够去主动地建构对世界的模型,并不断地验证和迭代。
VERSES AI将这一理论工程化,推出了AXIOM系统,这个系统用“槽位化”对象建模,每个对象都带有属性,通过主动推断来推测未来行动。
这条路线在学术界比较受关注,但距离大规模商业落地有比较大的距离。
深蓝具身智能
以上就是当前世界模型World Model赛道里的几个主要流派了。
目前已经有几十亿美金的投资押注在了这个赛道上,我时常在:“这个赛道大概率没什么前途”与“AI的突破就要靠世界模型”,这两个状态反复横跳,也很期待2026年的新的进展。
文章来源:@Nicole 作者授权分享-http://xhslink.com/o/5YNfEEtgGFw
相关推荐
AI教母李飞飞揭秘世界模型
专访图灵奖得主Yoshua Bengio:AI能否有“意”为之?
“Sora死路一条”?图灵奖得主Lecun火力全开
图灵奖得主姚期智院士:中国人工智能主力军是年轻人,这令人非常兴奋
36氪领读 | 图灵奖得主:人工智能是如何走出死胡同的?
图灵奖得主呼吁中国在全球AI领域发声,倡导国际合作
马斯克、图灵奖得主等叫停GPT-4后续大模型,千人响应
CMU教授邢波出任全球最富AI大学校长,曾师从图灵奖得主
机器学习圣杯:图灵奖得主Bengio和LeCun称自监督学习可使AI达到人类智力水平
元宇宙六大流派:中国老板的千人千面
网址: 图灵奖得主与AI教母的10亿美元“赌局”:世界模型正分裂为这六大流派 http://www.xishuta.cn/newsview148206.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519
