文章作者、来源:学术头条
视觉-语言-动作(VLA)模型,在部署时往往会遇到一个问题:一旦相机视角、安装位置或机器人形态稍有变化,性能就可能会下降。
以往的“上下文学习”(In-Context Learning ),通常把上下文当作示范,靠人工演示任务执行,机器人并不知道整套系统该如何运作。一旦部署环境改变,研究人员往往只能重新收集数据、重新调模型,既费时也费力。
针对这一问题,复旦大学邱锡鹏教授团队提出了“上下文世界建模”(In-Context World Modeling,ICWM)。在任务执行前,机器人会进行一小段与任务无关的随机探测,再将交互过程作为上下文输入模型,以此判断整套系统如何运作。
论文链接:https://arxiv.org/abs/2606.26025
仿真和真实机器人实验表明,ICWM 整体表现显著优于现有方法。该方法只需少量随机探测,便能在无需额外示范和参数更新的情况下适应新环境,并提升跨视角与跨配置的泛化能力。
与传统 VLA 模型相比,ICWM 会先根据交互上下文判断当前系统配置,再生成后续动作,无需重新示范或参数更新。具体流程可以分为训练和推理阶段:
训练阶段:研究团队会在每个任务样本前拼接一段与任务无关的交互片段,作为上下文输入。根据交互带来的画面变化,模型会判断当前系统的配置。ICWM 没有加入独立的世界模型,而是直接使用 VLA 主干来处理这段交互历史。这样既简化了结构,也能让信息能够直接用于动作预测。
推理阶段:机器人不会直接执行任务,而是先进行主动探测(active probing),记录动作前后的观测变化,形成交互上下文(interaction context)。随后,模型再把当前看到的上下文、画面和任务指令一起作为输入,判断接下来该怎么做。
图|ICWM 的训练与推理流程概览。
在实验阶段,研究团队进行了跨视角、真实机器人和多种分布外扰动实验。实验结果表明,ICWM 借助交互上下文提升了对新环境的适应能力,并展现出向语义变化和机器人形态变化等场景扩展的潜力。
1.仿真结果
研究团队先在LIBERO 仿真基准上做了跨视角实验。结果显示,ICWM 在已见和新视角下都优于基线。相比仅依赖多视角训练的方法,它在已见视角下平均高出 8.1 %,在新视角下平均高出 13.0 %。
即使把真实相机参数直接输入模型,模型的泛化表现仍不如 ICWM。在长时序任务上,ICWM 也能更好地控制累积误差。
图|在 LIBERO 基准上,已见视角与未见视角的成功率(%)。
2.真实机器人实验
在UR5e 真实机器人平台上,ICWM 同样明显优于基线。研究团队使用一套 12 相机的多视角系统进行评估,任务覆盖堆叠、抓取和拾取、放置等操作。
结果显示,标准 VLA 对视角变化较为敏感,从训练视角切换到测试视角后,平均成功率会从 68% 降至 17%,ICWM 的稳定性则更强。
图|在 UR5e 平台上的真实世界评测。
定性结果也显示,转换到新环境后,普通模型容易出现位置偏移、过早闭合夹爪等问题,ICWM 的表现则相对稳定。
图|定性对比。
3.消融与分析
消融实验显示,ICWM 的性能提升来自交互上下文,而并非简单的模式匹配。
去掉图像信息后,模型表现下降最明显,平均成功率从 25.0% 降到 10.9%;去掉动作信息,或不提供交互上下文,模型表现也会下降。如果提供一段错误的上下文,模型表现甚至比没有上下文时更差。此外,对照实验也表明,模型只有经过专门训练,才能利用交互上下文适应环境;否则,即使在测试时提供同样的信息,性能也几乎为零。
图|交互上下文消融实验。
从可视化结果看,模型已经能够区分不同视角和配置:相同视角下的数据分布更集中,不同视角之间的区分也更清晰。
图|不同分布外(OOD)视角下的 Ψ(T) 的 t-SNE 可视化。
研究团队发现,ICWM 效果并不依赖某一种特定的探测方式。无论采用随机探测,还是仅沿 XY、Z 或旋转方向运动,ICWM 都稳定优于对照方法,成功率提升约 15% 至 27%。泛化实验也显示,ICWM 对机器人形态变化具有较强适应性,在语义扰动场景下同样有一定提升。
图|分布外(OOD)视角下,不同探测策略的成功率(%)。
图|对语义场景变化和机器人形态变化的鲁棒性。
尽管 ICWM 显著提升了VLA 在新环境中的适应能力,但研究团队也指出,该方法仍存在以下不足:
首先,在部分极端视角条件下,ICWM 的性能提升仍然有限。原因在于,这些视角往往伴随更严重的遮挡,操作目标在执行过程中也更容易短暂移出相机视野。未来,模型仍需结合多视角感知、主动视角调整以及更强的遮挡建模能力。
其次,在语义扰动实验中,ICWM 的提升仍较为有限。当前训练数据中的场景语义和组合配置还不够丰富。未来,若能进一步扩充场景语义、组合配置更丰富的训练数据,ICWM 在语义扰动场景中的表现则有望继续提升。
更多技术细节,详见原论文。

