
目前对 VLA 模型的研究和测试大多集中在家用场景(如摆放餐具、折叠衣物),而对于专业科学环境,特别是生物实验室的应用则较少探索。生物实验室因其流程结构化、操作精度高以及多模态交互复杂等特点,是评估 VLA 模型在精确操作、视觉推理及指令执行能力方面的理想场地。

最近,香港大学MMLAB 罗平教授团队和上海交通大学穆尧教授团队合作的项目“AutoBio”已被 ICLR 2026 接受,并且获得了同行评审分数为8-8-6-6。该项目是一个针对数字化生物实验室的机器人仿真系统与基准测试平台。
当前主流视觉语言动作(VLA)模型是否具备在真实生物实验室内执行复杂任务的能力?这个问题是本文尝试回答的核心问题之一。

- 论文题目:AutoBio: 用于数字生物学实验室中机器人自动化的模拟和基准
- 论文链接:https://openreview.net/forum?id=UUE6HEtjhu
- 代码仓库:https://github.com/autobio-bench/AutoBio
- 研究背景:生物实验室为何构成重要挑战?
相较于日常环境,生物实验室在机器人自动化方面呈现出一系列特有的难题:
首先,实验步骤通常具有长序列和严格的时间限制。即使是简单的单步操作,一旦组合起来也会形成对顺序一致性和状态依赖性高度敏感的完整流程。
其次,常用的实验设备大多需要精细的手动调节,如螺纹接口、卡扣式连接等,这对机器人的姿态控制和路径规划提出了更高的要求。
再者,生物实验室中广泛存在的透明容器与液体样本对视觉识别构成了挑战,这些场景往往在现有的仿真系统和评估标准中被简化或忽略。
这些因素共同作用下,即使是那些在家用环境中表现出色的模型,在面对实际实验任务时也可能迅速失效。这表明现有的基准测试并不能完全反映模型的真实能力边界。
AutoBio 的核心设计思路

如上图所示,AutoBio 并非简单地复制实验室环境,而是基于生物实验的实际流程进行建模和评估。我们将其分为一系列基础操作单元(如样本转移、混合反应等),并在此基础上构建了一个可以用于机器人运动与控制的仿真平台。

在系统架构上,AutoBio 主要包含三个部分:
高精度仿真的实验室环境;
覆盖不同难度级别的实验任务库;
- 以及支持 VLA 模型训练和测试的数据接口。
- 这种设计使得 AutoBio 可以在保持实验流程一致性的前提下,对各种模型进行重复性和可比性评估。
- 真正的“实验室级”仿真系统
为了使机器人所处环境尽可能接近真实生物实验室,AutoBio 在多个方面进行了针对性的设计和扩展:
实验设备的数字化建模;
特定于实验室的物理机制;
支持视觉模型渲染与人机交互界面。
AutoBio Benchmark:从实验流程到评测任务
依托上述仿真能力,AutoBio 设计了一套包含16个不同难度级别的评估任务:

简单任务包括开关容器盖等;
中级任务则需要更高精度的操作和语言理解,如拧开离心管、转移样本;
- 而困难任务则涉及复杂的多模态推理,例如根据屏幕上显示的数据精确调节实验设备。
- 每个任务都提供自动化专家轨迹生成、随机化初始条件设置以及统一的成功判定标准,确保不同模型能在相同条件下进行公平比较。
- 当前VLA模型的能力边界
- 我们对多种主流开源 VLA 模型进行了系统性评测。结果显示:
在简单任务中,模型表现出较高的成功率;

随着任务复杂度的增加(如精细装配、液体判断或屏幕读取),成功率明显下降。
失败通常是由细节上的错误积累引起的,并不是因为模型对整个实验流程的理解出了问题。
这些发现表明,现有的 VLA 模型在实现高精度操作、细微的视觉推理及长时间序列任务建模等方面仍存在明显的局限性。

AutoBio 为研究者提供了一个统一的仿真与评估框架来系统地分析机器人在真实科研环境中的性能和限制。
我们的目标是通过明确的问题定义和可重复验证的方法,为通用机器人的科学研究应用铺平道路。
- 随着模型架构、训练策略以及跨模态推理能力的持续进步,我们期待 AutoBio 能够成为连接机器人学习与生命科学自动化研究的重要桥梁。
- 中等任务:需要一定精度和语言理解能力,如拧开离心管、样本转移;
- 困难任务:涉及多模态推理,如读取屏幕参数并精确调节实验设备。

每个任务均支持自动化专家轨迹生成、随机化初始条件以及统一的成功判定机制,使不同模型能够在一致条件下进行公平比较。
五、当前模型的能力边界
我们系统评测了多种主流开源 VLA 模型。实验结果如下图:

- 在简单任务上,模型已表现出较高成功率;
- 当任务涉及高精度装配、液体判断或屏幕读数时,成功率显著下降;
- 失败往往源于细节误差的持续累积,而非对任务的完全误解。
这一结果揭示出当前模型在高精度操作、细粒度视觉推理以及长期实验流程建模方面仍存在显著不足,也进一步验证了 AutoBio 在刻画真实科研场景挑战方面的必要性。
六、总结
AutoBio 提供了一个面向生物实验室的统一仿真与评测框架,使研究者能够系统性分析机器人在真实科研场景中的能力与局限。
我们的目标并非给出最终解决方案,而是通过清晰的问题定义和可复现的评测体系,为通用机器人走向科研自动化提供一个坚实的起点。
随着模型架构、训练范式与跨模态推理能力的持续发展,我们希望 AutoBio 能够成为连接机器人学习与生命科学自动化的重要基础设施。
