首页 科技快讯 独家|阿里开源最强世界模型Qwen-RobotWorld!860万条视频、四个评测数据全第一

独家|阿里开源最强世界模型Qwen-RobotWorld!860万条视频、四个评测数据全第一

来源:晰数塔互联网快讯 时间:2026年06月16日 19:47

(来源:智能纪元AGI)

就在刚刚,阿里最强世界模型来了!

6月16日消息,智能纪元AGI独家获悉,阿里合伙人周靖人参与,吴晨飞领衔的通义千问团队,发布基于语言、视频通用和具身数据的具身视频世界模型Qwen-RobotWorld。

据悉,Qwen-RobotWorld采用30%通用视频数据、70%具身专属数据进行结合,拥有860万条视频和文本对、超2亿帧画面,核心目标是用自然语言作为统一交互接口,打通机器人操作、自动驾驶、室内导航、人机动作迁移等多类具身智能场景,实现跨平台、跨任务的环境动力学建模。

目前该模型论文已经公布,稍晚点公布开源信息,主要用于合成训练数据、虚拟评测环境、语言引导机器人规划三大落地方向,在多项权威基准上取得顶尖成绩。

据悉,具身智能的世界模型可抽象为基于当前视觉状态、与动作,预测未来视觉轨迹。其中自然语言是最优通用动作表征,无需适配机器人底层控制指令,具备跨硬件、跨场景的通用性。

然而,现在世界和具身模型拥有一些矛盾问题:

1、通用视频生成模型(如 Sora、Veo)拥有海量互联网视觉先验,但物理建模能力薄弱,无法精准模拟接触力学、刚体约束、动作 - 结果因果关系;专用具身模型仅适配单一场景(桌面操作 / 驾驶),依赖机械关节、航点等硬件专属动作指令,无法跨机器人、跨任务泛化。

2、缺乏统一框架:暂无模型能以自然语言为统一接口,融合多类具身场景的物理知识,实现联合训练与能力互补。

因此,北京邮电大学博士,阿里巴巴通义实验室资深专家吴晨飞领衔,阿里合伙人、AI未来研究院首席科学家周靖人参与,整个阿里通义千问团队发现:可以通用视频模型与专用具身模型的壁垒,用自然语言作为全域统一接口,可实现机器人操作、自动驾驶、室内导航、人机迁移多场景大一统建模;构建的数据集、架构、训练范式均具备开源参考价值。

所以,Qwen-RobotWorld正式诞生:这是全球首个以自然语言为统一动作接口,融合通用视觉先验与多领域具身物理知识,设计全新架构、大规模数据集与分阶段训练策略,构建一体化具身世界模型。

根据论文,整套框架由模型架构、大规模数据集、分阶段训练方案三部分组成,形成端到端解决方案:

架构:双流 MMDiT 扩散 Transformer,结合 Qwen2.5-VL 大语言模型作为动作编码器,Wan-VAE(127M 参数),将视频帧压缩为隐变量,同时支持图像、视频编解码,实现语言 - 视觉深度融合;上下文长度:最高支持 48360 个视频 Token,适配长时序生成。数据:构建 EWK(具身世界知识)数据集,统一20+机器人形态、500 + 动作的语言标注,覆盖多场景;

具体来说,具身数据分为四大板块,覆盖全品类具身场景:

机器人操作(主体,约 590 万条):占比最高,涵盖人手、单 / 双臂夹爪、灵巧手、人形机器人等20 + 机器人形态,包含抓取、挤压、倾倒、折叠等1300 + 技能,分为短原语动作、长时序组合任务、柔性 / 流体交互等类别;同时支持主视角、腕部视角、多视角同步数据。

自动驾驶(约 20 万条):整合 Waymo、NVIDIA、Bench2Drive 等数据集,包含真实路测与仿真场景,覆盖多车交互、变道、避障等,强化大尺度 3D 空间与多智能体动力学建模。

室内导航(6000 + 片段):基于仿真平台采集语言引导的室内漫游轨迹,侧重房间级空间推理、障碍物规避能力。

人机动作迁移:基于 MANO 手部重建 + MuJoCo 渲染,将人类动作自动迁移到 14 类机器人,生成 “人类演示 + 机器人复刻” 配对视频,打通人 - 机器人动作迁移能力。

最后是训练层面:该模型采用通用+专家渐进式双阶段训练,流匹配(Flow Matching)作为基础损失函数,分两大阶段循序渐进,兼顾通用视觉能力与具身专业能力。

阶段 1:预训练——构建通用世界先验

数据来源:互联网通用图片、视频 + 大规模人类第一视角操作视频;

训练任务:联合训练文生图 (T2I)、文生视频 (T2V)、图生视频 (TI2V);

核心作用:学习物体形态、光照、基础物理规则、人类操作先验;文生图任务锚定几何正确性,从根源抑制视频生成中的物体畸变。

阶段 2:SFT 微调 —— 注入具身专长(四阶段渐进注入)

全程混合 30% 通用数据 + 70% 具身数据,避免专精后丢失通用能力,分四阶段逐步提升难度:

阶段 1:单视角机器人 + 人手数据,学习基础交互原语;

阶段 2:新增腕部、第三方等多视角数据,拓宽视角泛化性;

阶段 3:多视角拼接训练,强制模型学习跨视角几何一致性;

阶段 4:加入长时序任务、流体 / 柔性物体、自动驾驶 / 导航等复杂数据,强化高阶物理与长程推理。

基于 Megatron-LM 混合并行训练,搭配激活重计算策略,平衡算力开销与训练吞吐量。

实验结果层面,论文显示,在四大主流具身世界模型基准中对比通用视频模型、专业具身模型,Qwen-RobotWorld 取得全面领先,同时完成定性泛化测试。

其中,EWMBench(具身运动基准)上,Qwen-RobotWorld总分4.60,排名第一;运动保真度 HSD 指标 0.566,较第二名提升 33%,场景一致性、物理逻辑均为顶尖。

DreamGen Bench(机器人视频生成)上,Qwen-RobotWorld总分4.952,排名第一;物体泛化、物理对齐能力突出,擅长基于指令生成机器人动作视频。

PBench(物理行为基准)上,Qwen-RobotWorld总分 0.804,开源模型第一;物理理解能力 0.857(全局第三),运动流畅度 0.990(开源第二)。

最后是WorldModelBench(物理推理 + 指令跟随),Qwen-RobotWorld总分 8.99,开源模型第一、全局第三;物理合规性(牛顿定律、质量守恒、流体、重力)全满分,指令跟随得分 2.33/3.0。

具体场景上,Qwen-RobotWorld可区分目标物体、动作类型、目标位置等细微指令差异,支持多步复杂长时序任务;覆盖抓取、折叠、擦拭、人机交接等多样任务,多视角画面几何完全一致;在RoboTwin-IF复杂仿真基准中,零样本表现优于 LVP、Cosmos 等主流模型,指令对齐、多视角一致性更强;成功实现人转机器人、自动驾驶、室内导航等跨场景视频生成。

论文表示,Qwen-RobotWorld应用场景包括,批量生成海量机器人操作、驾驶等仿真视频,补充真实数据不足,降低数据采集成本;作为交互式虚拟世界,在仿真环境中测试机器人策略,规避真实场景安全风险、提升迭代效率;将自然语言指令转化为视觉动作轨迹,为下游机器人、自动驾驶提供规划信号。

相关推荐

独家|阿里开源最强世界模型Qwen-RobotWorld!860万条视频、四个评测数据全第一
国产大模型新年动作频频:智谱联手华为开源新模型,MiniMax开源评测集
阿里除夕开源千问3.5:性能媲美Gemini 3 Pro, 实现原生多模态模型代际跃迁
阿里巴巴集团旗下阿里云近日宣布,全面开源其视频生成大模型万相2.1(Wan)
动态| 阿里云CTO周靖人:通义真正实现全尺寸、全模态开源,下载量已破2000万|2024世界人工智能大会
超越DeepSeek-V4!罗福莉交出小米最强开源模型,首日适配5家国产芯片
蚂蚁、OpenAI、DeepSeek卷疯了!国产最强万亿参数旗舰模型Ling-1T开源
OpenAI最强竞对Anthropic:正确的大模型评测应该是怎样的?
谁在评价大模型?AI大模型评测榜单乱象调查
开源全球第一!MiniMax新一代大模型M2到底有多强

网址: 独家|阿里开源最强世界模型Qwen-RobotWorld!860万条视频、四个评测数据全第一 https://www.xishuta.cn/newsview150531.html

所属分类:行业热点

推荐科技快讯