文章详情

生数科技开源统一世界模型 Motus

AIPress.com.cn报道2月6日消息，生数科技联合清华大学正式开源统一世界模型 Motus。该模型基于视频大模型构建，在多项核心具身智能任务中...

更新:

2026-02-17 09:55:02

文章详情介绍

AIPress.com.cn报道

2月6日消息，生数科技联合清华大学正式开源统一世界模型 Motus。该模型基于视频大模型构建，在多项核心具身智能任务中，相较国际主流 VLA 模型 Pi0.5，实现了约 40% 的成功率提升。研究团队表示，这一结果验证了具身基础模型在统一架构下进行规模化扩展（Scale Up）的可行路径。

据介绍，Motus 于 2025 年 12 月完成论文发布并同步实现完整开源，时间上早于行业内相关成果约两个月。此前，生数科技与清华大学已于 2025 年 7 月提出 Vidar 具身视频模型，围绕“以视频模型作为具身智能统一表征底座”的技术方向展开探索。

研究团队认为，视频天然承载真实世界中的物理时空结构、因果关系与动态变化，是连接感知与行动的重要多模态表征形式。基于这一判断，Motus 试图突破传统具身智能系统中“感知—推理—行动”模块割裂的问题，构建统一的通用世界模型框架。

在模型设计上，Motus 首次在同一框架中统一了 VLA、世界模型、视频生成模型、逆动力学模型以及视频–动作联合生成模型等五类具身基础范式，形成贯通感知、推理与执行的端到端建模路径。与部分侧重仿真渲染的世界模型路线不同，Motus 被定位为可直接用于物理执行的一体化模型。

在数据层面，Motus 针对具身智能长期面临的真机数据稀缺问题，统一了跨本体机器人数据、任务无关数据、仿真数据、人类操作视频以及互联网视频的动作空间，并通过大规模预训练学习通用运动先验，以提升模型的跨任务与跨平台泛化能力。

在评测结果方面，Motus 在多个维度展现出明显优势。在数据规模扩展实验中，Motus 在 50 个任务上的平均成功率相比 Pi0.5 提升 35.1 个百分点，并在相同性能水平下实现约 13.55 倍的数据效率。在任务数量扩展实验中，随着任务复杂度提升，Motus 的整体成功率保持上升趋势，而对比模型出现明显下降，最终成功率差距约为 37 个百分点。

在 RoboTwin 2.0 仿真环境中，Motus 在覆盖 50 个任务的评测中取得约 88% 的平均成功率。在部分高难度操作任务中，其成功率显著高于现有基线模型。研究团队还在多种真实机器人平台上完成部署测试，结果显示 Motus 在跨任务与跨本体场景中具备较强迁移能力。

生数科技表示，Motus 的开源旨在为具身智能领域提供统一、可扩展的基础模型方案，推动具身智能从模块化系统向统一智能体架构演进。该模型的代码、论文与权重已在 GitHub、Hugging Face 等平台公开。