
机器之心编辑部
在全球具身智能领域的权威测评 WorldArena 榜单中,清华大学陈建宇(星动纪元创始人)和斯坦福大学切尔西·芬恩(PI 创始人)团队研发的 Ctrl-World 世界模型取得了优异的成绩:

- 具身任务能力获得全球第一,并在主体一致性、轨迹精度、深度准确性及策略评估一致性四大核心维度上登顶;
- 视频生成方面排名第二,仅次于阿里 Wan 2.6,超越谷歌 Veo 3.1 和英伟达 Cosmos-Predict 2.5 等顶级模型;
- Ctrl-World 成为在「视频生成质量」和「具身任务执行能力」两个关键维度上跻身世界前列的世界模型。
![]()
WorldArena 对全球范围内共 14 种世界模型的 EWMScore 综合评分进行评估:
(a) 在策略评估一致性方面,Ctrl-World 的得分高达 0.986,远超英伟达等同类产品;(b) 视频生成质量上排名第二,得分为 59.70,紧随阿里 Wan 2.6(61.86)之后,并且领先于谷歌 Veo 3.1(58.87)。
WorldArena:
全球具身世界模型的「终极试炼场」
因其全面、硬核及引领性的定位,WorldArena 成为业内公认的权威榜单。这种专业性源于三大核心特质:
1. 硬核基准:顶尖学术机构共建,全方位综合测评
WorldArena 在清华大学和斯坦福大学等多家顶级研究机构的合作下建立,并对世界模型进行全面的测试评估。
2. 物理引擎嵌入式训练
Ctrl-World 通过嵌入物理引擎的方式进行训练,使得生成的内容更接近于真实世界的物理规律。这不仅提高了数据的有效性,还大大降低了实验成本。
3. 多视角联合预测与视频预测模型融合
为了提高深度准确性,Ctrl-World 结合了多视图联合预测和视频预测的技术手段,使其在处理复杂任务时表现更佳。这些特性直接决定了其作为「机器人大脑」的实际应用价值。
Ctrl-World 的成功之处在于它精准地把握了具身世界模型的核心要素:以物理规律为基础、空间认知为支撑以及功能性为目标,从而实现了从“生成好看”到“真正实用”的跨越。随着未来更多模型加入评测体系及应用场景的不断拓展,WorldArena 将继续推动该领域向更理解物理学特性、更强的空间感知能力和更高执行效率的方向发展。
从高分指标到任务成功:

解析 Ctrl-World 的「实力转化」
Ctrl-World 在物理贴合度、三维准确性及可控性等维度的卓越表现,直接决定了其作为机器人控制系统的关键作用。通过 WorldArena 的评测数据可以清晰看出这种转换关系:

1. 高保真策略评估:虚拟测试与真实测试高度一致
在 Policy Evaluator 任务中,Ctrl-World 与物理模拟器 RoboTwin 的评估结果相关性高达 0.986,这意味着在虚拟环境中进行的机器人策略测试可以完全替代真实的环境测试。这显著降低了研发成本。
2. 动作规划成功率:精准度直接决定任务成败

在 Action Planner 任务中,虽然当前所有世界模型的整体成功率仍有提升空间,但 Ctrl-World 的物理准确性为其奠定了最坚实的基础。在闭环动作执行任务里,物理贴合度和轨迹精度直接影响着机械臂能否完成特定操作。
3. 合成数据的有效性:从「能够生成」到「可以训练」
在 Data Engine 任务中,Ctrl-World 确保其生成的数据具有极高的物理合理性,从而使其可用于真实环境中的策略训练。这与许多模型相比是一个显著的优势。
Ctrl-World 的制胜密码:
1. 动作条件化架构

相较于传统的文本驱动模式,Ctrl-World 采用显式动作建模的方式,将机械臂的关节角度等物理参数直接作为生成条件,从而实现更真实的交互模拟。
2. 物理引擎约束嵌入训练过程

在训练过程中引入物理引擎约束,使得模型能够更好地遵循物理定律。这种做法显著提升了其虚拟环境与真实世界的匹配度。
从「生成好看」到「真正实用」:
清华大学陈建宇团队和斯坦福大学切尔西·芬恩团队合作研发的 Ctrl-World 在 WorldArena 榜单上取得了具身任务第一、视频生成综合第二的成绩。这主要得益于其对具身世界模型本质特征的深刻理解——以物理规律为基础,空间认知为支撑,并注重实用功能的应用。
随着更多模型加入评测体系及应用场景的不断拓展,WorldArena 将持续推动该领域向更懂物理学特性、更强的空间感知能力和更高执行效率的方向发展。这一趋势将加速机器人自主智能技术的实际应用进程。

图中展示了 WorldArena 基准中主体一致性(Subject Consistency)的高低分案例对比,直观说明 Ctrl-World 以 0.8411 位列全球第一的技术优势:
- 高分案例(90.07):在「adjust bottle」任务中,瓶子在机械臂交互全过程中保持形状、颜色、标识及位置的时序稳定,无漂移或形变,体现高保真「数字孪生」特性;
- 低分案例(1.242):同场景下瓶子出现严重几何变形与身份特征丢失,产生视觉噪声,直接影响机器人策略训练的可靠性。
2. 轨迹精度全球第一(0.4766 ):动作精准度媲美真实物理轨迹
轨迹准确性(Trajectory Accuracy)衡量机械臂运动轨迹与真实物理轨迹的对齐度,是机器人动作规划的核心基础。Ctrl-World 以 0.4766 的绝对优势位列全球第一,意味着其生成的机械臂运动轨迹与真实世界物理运动几乎完全吻合,为机器人提供了可信赖的「数字孪生」动作模板。

图中展示了 WorldArena 基准中轨迹准确性(Trajectory Accuracy)的高低分案例对比,直观说明 Ctrl-World 以 0.4766 位列全球第一的技术优势:
- 高分案例(92.95):在 「move can pot」任务中,机械臂运动轨迹(红色路径线)与真实物理轨迹(GT)高度吻合,动作精准连贯,符合物理运动规律;
- 低分案例(8.64):同场景下轨迹出现显著偏离,伴随异常跳跃和不连贯动作,无法复现真实物理运动。
3. 深度准确性全球第一梯队(0.9300 ):3D 空间认知遥遥领先
在 3D 准确性维度的深度准确性(Depth Accuracy)指标上,Ctrl-World 以 0.9300(与第一位差距仅 0.0012)属全球第一梯队,展现了对三维空间结构的精准把握。这一能力直接决定机器人在抓取、堆叠、插入等精密操作中的成功率,避免因「空间感知偏差」导致的抓空、碰撞等失误。

该图展示了 WorldArena 基准中深度准确性(Depth Accuracy)高低分案例对比,直观说明 Ctrl-World 以 0.9300 全球第一梯队技术优势:
- 高分案例(深度准确性 91.58 ):在「stack blocks three」与 「stack bowls two」任务中,生成深度图与真实场景(GT)高度一致,物体空间位置稳定、透视关系合理,机械臂与物体保持正确的空间分离与物理接触,体现精准的三维空间结构认知;
- 低分案例(深度准确性 59.07):同场景下出现机械臂与物体异常融合(穿透)、严重几何失真、鬼影模糊及阴影缺失,空间完整性崩塌。
4. 策略评估一致性全球第一(Pearson r=0.986):虚拟测试 = 真实测试
在最具实用价值的策略评估(Policy Evaluator)任务中,Ctrl-World 与真实物理模拟器(RoboTwin 2.0)的评估结果相关性高达 0.986,近乎完美复刻真实环境动态。这意味着开发者可直接用 Ctrl-World 测试机器人策略,无需搭建昂贵的真实物理环境,大幅降低研发成本。

世界模型与物理模拟器的策略评估结果相关性:
Ctrl-World 的 Pearson r=0.986,近乎完美复刻真实环境评估结果,远高于英伟达 Cosmos-Predict 2.5 的 0.483,印证了其作为虚拟仿真环境的可靠性。
从指标高分到任务成功:
解码 Ctrl-World 的「实力转化」
Ctrl-World 在物理贴合度、3D 准确性及可控性等维度的全面领先,并非仅仅是实验室里的数字游戏,而是直接决定了其作为「机器人大脑」的实用价值。WorldArena 的评测数据清晰揭示了这种转化关系:
1. 高保真策略评估:虚拟测试即真实测试
在 Policy Evaluator 任务中,Ctrl-World 与 RoboTwin 物理模拟器的评估相关性高达 0.986,这意味着在 Ctrl-World 中测试的机器人策略性能,与在真实物理环境中测试的结果几乎无差异。相比之下,Cosmos-Predict 2.5 的相关性仅为 0.483。这一差距的背后的技术逻辑在于:Ctrl-World 通过显式动作建模(Action-Conditioned)架构,将机械臂关节角度、末端执行器位姿等低层物理参数直接作为生成条件,强制模型学习「执行动作 A→产生状态 B」的因果物理链,而非仅仅根据文字描述「猜测」动作。
2. 动作规划成功率:物理准确性直接决定任务成败
在 Action Planner 任务中,虽然当前所有世界模型的绝对成功率仍有提升空间,但 Ctrl-World 的物理准确性优势为其奠定了最可靠的基础。在闭环动作执行任务中,物理贴合度和轨迹精度的高低直接决定了机械臂能否完成「调整瓶子」、「点击铃铛」等操作。Ctrl-World 的轨迹精度(0.4766)和深度准确性(0.9300)确保了生成的动作序列在真实机器人上执行时,能够精准到达目标位置并维持物理稳定的交互,避免了因「空间感知偏差」导致的抓空、碰撞等操作失误。
3. 合成数据的有效性:从「能生成」到「能训练」
在 Data Engine 任务中,Ctrl-World 生成数据的物理合理性确保了其可用于训练真实策略。原论文指出,许多模型生成的合成数据虽然视觉上清晰,但因缺乏物理一致性,训练出的策略在真实环境中完全失效(「virtual data training, real world failure」)。而 Ctrl-World 通过嵌入物理引擎约束的训练方式,确保生成的视频不仅「看起来对」,更「物理上对」,使其合成的视频 - 动作序列真正具备训练价值。
Ctrl-World 的「制胜密码」
1. 动作条件化(Action-Conditioned)架构
与 Genie Envisioner、GigaWorld 等文本条件化模型不同,Ctrl-World 采用显式动作建模,直接将机器人动作参数(关节扭矩、夹爪开合度)注入生成过程。原论文明确指出:「explicit action modeling plays a critical role in producing physically plausible interactions」(显式动作建模对产生物理合理交互至关重要)。这使其能够精确模拟接触力反馈、惯性传递等物理现象,从根本上避免了文本模型常见的「物体穿透机械臂」、「隔空吸附」等错误。
2. 物理引擎约束嵌入
Ctrl-World 在训练过程中嵌入物理引擎约束,将牛顿力学定律「内化」为生成过程的硬约束。不同于单纯依赖像素统计规律的通用视频模型,Ctrl-World 通过物理引擎监督,强制生成内容遵守质量、摩擦、碰撞守恒律。这正是其策略评估相关性达到 0.986 的核心原因 —— 生成过程受物理规律约束,模拟的环境动态与真实物理模拟器的误差极小。
3. 多视图联合与视频预测模型
针对 Depth Accuracy 第一梯队成绩,Ctrl-World 融合多视图联合预测与视频预测模型,不仅预测 RGB 像素,更隐式建模深度图与点云结构,利用多视角数据训练空间认知能力,使其在处理「堆叠积木」等需要精确深度准确性的任务时,成功率超仅使用单目视频训练的模型。
从「生成好看」到「真能干活」
世界模型进入新阶段
清华陈建宇团队联合斯坦福 Chelsea Finn 团队研发的 Ctrl-World 在 WorldArena 拿下「具身任务第一、视频生成综合第二」的佳绩,核心在于其精准把握了具身世界模型的本质 ——「以物理规律为根,以空间认知为骨,以功能 utility 为魂」。随着更多模型加入评测、更多场景被纳入体系,WorldArena 将持续推动具身世界模型向「更懂物理、更有空间感、更能干活」的方向发展,加速机器人自主智能的落地进程。
WorldArena 相关资源
- 项目主页:http://world-arena.ai
- 论文地址:http://arxiv.org/abs/2602.08971
- GitHub 开源:https://github.com/tsinghua-fib-lab/WorldArena
- 评测榜单:https://huggingface.co/spaces/WorldArena/WorldArena
