在ICRA 2026大会上,中兴通讯发布了RealMirror平台,这是一个开放源代码的视觉语言行动平台,旨在促进具身智能的研究与应用普及。
具身智能的目标是创建能够感知、理解并操作物理环境的智能体。这一领域正推动人工智能从抽象计算向更贴近人类物理行为的方向发展,而人形机器人的最新进展正在逐步实现这种理想状态。
目前,人形机器人视觉语言动作(VLA)研究面临着三大挑战:
数据收集成本高昂:与大型语言模型可以利用互联网上的大量文本数据不同,具身智能依赖于机器人与其物理环境之间的交互数据。这一过程不仅耗时且费用昂贵,还伴随着安全风险。
评测基准缺乏统一标准:机器人的测试通常需要交互式迭代验证,并且无法使用离线数据进行评估。此外,针对人形机器人的双臂协作和灵巧手操作等特性的标准化评测体系尚不完善。
Sim2Real差距明显:传统仿真器在视觉真实性和物理互动的逼真度方面与现实世界存在较大差异,这使得通过仿真训练得到的模型难以直接应用于实际机器人上进行测试。
为了应对这些挑战,中兴通讯的研究团队(ZTE Terminators Team)在ICRA 2026会议上发表了一篇名为《RealMirror: A Comprehensive, Open-Source Vision-Language-Action Platform for Embodied AI》的论文。该平台集成了“数据采集—模型训练—推理—自动化评测—零样本Sim2Real迁移”等功能,提供了一个端到端具身VLA仿真基座。
第一,创建了高效且成本低廉的数据收集、训练和推断系统,使得研究者能够在没有实际机器人的情况下完成整个VLA的研究工作流程。
第二,设计了一套专为人形机器人的VLA算法的评测基准,并在多种场景及主流算法上进行了广泛的实验测试,支持自动化评估,从而加速了算法的研发并促进了公平比较。
第三,使用生成模型和3D Gaussian Splatting技术重建物理环境与机器人,减小仿真到现实之间的差距。这使得训练完成的模型可以直接在真实的机器人上运行而无需额外的数据调整或微调步骤。
RealMirror平台通过整合这些关键特性,提供了一个强大的具身智能仿真研究工具,能够显著降低研发成本和时间需求。

构成RealMirror平台的主要组成部分包括:
(a) 左上:基于VR遥操作系统、LeRobot训练框架与Isaac Sim构建的端到端数据采集—模型训练—仿真推理系统;
(b) 右上:面向人形机器人的VLA评测基准,涵盖多种场景任务及多个主流算法的自动化评估功能;
(c) 右下:通过3DGS与生成式模型实现高保真视觉重建技术,显著减少Sim2Real之间的差距,使仿真训练的数据可以直接应用于真实机器人上。
自开源以来,RealMirror平台得到了广泛关注和认可,在GitHub上获得了超过600个star。此外,项目还发布了大量相关的开源资源,包括专有的授权模型、数字孪生场景、多架构预训练权重以及原始数据集等,总下载量已达到2400次。


三大核心贡献:构建端到端研发基座
高效低成本的采数-训练-推断系统:无需真实机器人即可完成整个VLA研究流程
为了降低数据获取成本,RealMirror利用PICO VR头显创建了轻量级遥操作系统,并通过多级滤波机制确保动作平滑性。同时优化WebXR通信框架以减少延迟并提高响应速度。

左图展示了基于手柄的VR遥操作数据采集系统;右图则展示了一种更精细的手势识别模式,适用于需要高精度控制的操作场景。
RealMirror平台通过深度整合LeRobot训练框架和Isaac Sim推理环境,实现了从数据收集到模型推断的一站式流程。研究人员可以在虚拟环境中完成VLA算法的端到端测试与迭代。

上图展示了代表性下游任务推理过程
人形机器人VLA评测基准:涵盖五大场景和五项核心技能,提供1000多条高质量仿真轨迹。
为促进算法研究的标准化,RealMirror设计了一套面向人形机器人的开源VLA评估标准。该平台支持多种主流算法的自动化测试,并从宏观任务表现及微观能力构成两个角度进行模型性能评估。

上表:Benchmark任务场景与核心技能映射

上表:各VLA模型在各项任务中的成功率(%)对比,最佳结果以粗体标出。
零样本Sim2Real迁移:通过3DGS重构技术实现仿真到现实的无缝转换
为了缩小视觉域上的Sim2Real差距,RealMirror采用了一种差异化的重建策略:
对于静态背景环境,使用3D Gaussian Splatting从多视角视频中重建高保真的场景。
针对机器人本体,则通过扫描真实设备并将其与USD模型进行刚性配准来实现高度逼真的外观渲染。
交互物品方面,高精度物体采用CAD模型结合3DGS视觉叠加,而低精度物体则利用腾讯混元大模型快速生成三维资产。

上图:传统仿真、RealMirror重建与真实场景之间的对比。结果显示,RealMirror的重建效果在视觉真实性上显著优于传统的渲染技术,并接近于现实情况。
通过高保真的模拟环境训练得到的VLA模型可以直接部署到实际的人形机器人上执行任务而无需任何微调。实验结果表明,在基础抓取和复杂双臂操作等不同任务中均取得了较高的成功率,验证了该方法的有效性。
下图展示了仿真环境内推理(Sim2Sim)与直接在真机上运行的对比

实验显示,同一模型在仿真环境中执行时的动作流畅性和完成度与其部署到真实设备后的表现高度一致。
“由于缺乏实际机器人,很多团队无法开展研究。而那些拥有机器人的团队则陷入了‘采集—训练—部署—失败—再采集’的循环。”论文团队表示,“RealMirror平台旨在使具身智能的研究能够在纯仿真环境中完成整个流程闭环。”
人形机器人正从实验室展示转向大规模应用,降低算法研发成本已成为行业共识。通过构建端到端的仿真基座,RealMirror为推动具身智能研究普及化提供了重要的基础设施支持。
RealMirror论文:https://arxiv.org/abs/2509.14687
MirrorLimb论文:https://arxiv.org/abs/2511.08865
项目网页:https://terminators2025.github.io/RealMirror.github.io
开源代码:https://github.com/terminators2025/RealMirror
开源数原始据集:https://huggingface.co/datasets/zte-terminators/realmirror-datasets
开源附加数据集:https://huggingface.co/datasets/zte-terminators/realmirror-extra-datasets
多架构预训练模型权重:https://huggingface.co/zte-terminators/realmirror-model-ckpt
场景及机器人资产:https://huggingface.co/datasets/zte-terminators/realmirror-asset
