首页科技快讯独家｜阿里开源最强世界模型Qwen-RobotWorld！860万条视频、四个评测数据全第一

独家｜阿里开源最强世界模型Qwen-RobotWorld！860万条视频、四个评测数据全第一

来源：晰数塔互联网快讯时间：2026年06月16日 19:47

（来源：智能纪元AGI）

就在刚刚，阿里最强世界模型来了！

6月16日消息，智能纪元AGI独家获悉，阿里合伙人周靖人参与，吴晨飞领衔的通义千问团队，发布基于语言、视频通用和具身数据的具身视频世界模型Qwen-RobotWorld。

据悉，Qwen-RobotWorld采用30%通用视频数据、70%具身专属数据进行结合，拥有860万条视频和文本对、超2亿帧画面，核心目标是用自然语言作为统一交互接口，打通机器人操作、自动驾驶、室内导航、人机动作迁移等多类具身智能场景，实现跨平台、跨任务的环境动力学建模。

目前该模型论文已经公布，稍晚点公布开源信息，主要用于合成训练数据、虚拟评测环境、语言引导机器人规划三大落地方向，在多项权威基准上取得顶尖成绩。

据悉，具身智能的世界模型可抽象为基于当前视觉状态、与动作，预测未来视觉轨迹。其中自然语言是最优通用动作表征，无需适配机器人底层控制指令，具备跨硬件、跨场景的通用性。

然而，现在世界和具身模型拥有一些矛盾问题：

1、通用视频生成模型（如 Sora、Veo）拥有海量互联网视觉先验，但物理建模能力薄弱，无法精准模拟接触力学、刚体约束、动作 - 结果因果关系；专用具身模型仅适配单一场景（桌面操作 / 驾驶），依赖机械关节、航点等硬件专属动作指令，无法跨机器人、跨任务泛化。

2、缺乏统一框架：暂无模型能以自然语言为统一接口，融合多类具身场景的物理知识，实现联合训练与能力互补。

因此，北京邮电大学博士，阿里巴巴通义实验室资深专家吴晨飞领衔，阿里合伙人、AI未来研究院首席科学家周靖人参与，整个阿里通义千问团队发现：可以通用视频模型与专用具身模型的壁垒，用自然语言作为全域统一接口，可实现机器人操作、自动驾驶、室内导航、人机迁移多场景大一统建模；构建的数据集、架构、训练范式均具备开源参考价值。

所以，Qwen-RobotWorld正式诞生：这是全球首个以自然语言为统一动作接口，融合通用视觉先验与多领域具身物理知识，设计全新架构、大规模数据集与分阶段训练策略，构建一体化具身世界模型。

根据论文，整套框架由模型架构、大规模数据集、分阶段训练方案三部分组成，形成端到端解决方案：

架构：双流 MMDiT 扩散 Transformer，结合 Qwen2.5-VL 大语言模型作为动作编码器，Wan-VAE（127M 参数），将视频帧压缩为隐变量，同时支持图像、视频编解码，实现语言 - 视觉深度融合；上下文长度：最高支持 48360 个视频 Token，适配长时序生成。数据：构建 EWK（具身世界知识）数据集，统一20+机器人形态、500 + 动作的语言标注，覆盖多场景；

具体来说，具身数据分为四大板块，覆盖全品类具身场景：

机器人操作（主体，约 590 万条）：占比最高，涵盖人手、单 / 双臂夹爪、灵巧手、人形机器人等20 + 机器人形态，包含抓取、挤压、倾倒、折叠等1300 + 技能，分为短原语动作、长时序组合任务、柔性 / 流体交互等类别；同时支持主视角、腕部视角、多视角同步数据。

自动驾驶（约 20 万条）：整合 Waymo、NVIDIA、Bench2Drive 等数据集，包含真实路测与仿真场景，覆盖多车交互、变道、避障等，强化大尺度 3D 空间与多智能体动力学建模。

室内导航（6000 + 片段）：基于仿真平台采集语言引导的室内漫游轨迹，侧重房间级空间推理、障碍物规避能力。

人机动作迁移：基于 MANO 手部重建 + MuJoCo 渲染，将人类动作自动迁移到 14 类机器人，生成 “人类演示 + 机器人复刻” 配对视频，打通人 - 机器人动作迁移能力。

最后是训练层面：该模型采用通用+专家渐进式双阶段训练，流匹配（Flow Matching）作为基础损失函数，分两大阶段循序渐进，兼顾通用视觉能力与具身专业能力。

阶段 1：预训练——构建通用世界先验

数据来源：互联网通用图片、视频 + 大规模人类第一视角操作视频；

训练任务：联合训练文生图 (T2I)、文生视频 (T2V)、图生视频 (TI2V)；

核心作用：学习物体形态、光照、基础物理规则、人类操作先验；文生图任务锚定几何正确性，从根源抑制视频生成中的物体畸变。

阶段 2：SFT 微调 —— 注入具身专长（四阶段渐进注入）

全程混合 30% 通用数据 + 70% 具身数据，避免专精后丢失通用能力，分四阶段逐步提升难度：

阶段 1：单视角机器人 + 人手数据，学习基础交互原语；

阶段 2：新增腕部、第三方等多视角数据，拓宽视角泛化性；

阶段 3：多视角拼接训练，强制模型学习跨视角几何一致性；

阶段 4：加入长时序任务、流体 / 柔性物体、自动驾驶 / 导航等复杂数据，强化高阶物理与长程推理。

基于 Megatron-LM 混合并行训练，搭配激活重计算策略，平衡算力开销与训练吞吐量。

实验结果层面，论文显示，在四大主流具身世界模型基准中对比通用视频模型、专业具身模型，Qwen-RobotWorld 取得全面领先，同时完成定性泛化测试。

其中，EWMBench（具身运动基准）上，Qwen-RobotWorld总分4.60，排名第一；运动保真度 HSD 指标 0.566，较第二名提升 33%，场景一致性、物理逻辑均为顶尖。

DreamGen Bench（机器人视频生成）上，Qwen-RobotWorld总分4.952，排名第一；物体泛化、物理对齐能力突出，擅长基于指令生成机器人动作视频。

PBench（物理行为基准）上，Qwen-RobotWorld总分 0.804，开源模型第一；物理理解能力 0.857（全局第三），运动流畅度 0.990（开源第二）。

最后是WorldModelBench（物理推理 + 指令跟随），Qwen-RobotWorld总分 8.99，开源模型第一、全局第三；物理合规性（牛顿定律、质量守恒、流体、重力）全满分，指令跟随得分 2.33/3.0。

具体场景上，Qwen-RobotWorld可区分目标物体、动作类型、目标位置等细微指令差异，支持多步复杂长时序任务；覆盖抓取、折叠、擦拭、人机交接等多样任务，多视角画面几何完全一致；在RoboTwin-IF复杂仿真基准中，零样本表现优于 LVP、Cosmos 等主流模型，指令对齐、多视角一致性更强；成功实现人转机器人、自动驾驶、室内导航等跨场景视频生成。

论文表示，Qwen-RobotWorld应用场景包括，批量生成海量机器人操作、驾驶等仿真视频，补充真实数据不足，降低数据采集成本；作为交互式虚拟世界，在仿真环境中测试机器人策略，规避真实场景安全风险、提升迭代效率；将自然语言指令转化为视觉动作轨迹，为下游机器人、自动驾驶提供规划信号。