首页/详情

BridgeV2W:用“动作剪影”打通视频生成与机器人世界模型,让机器人在行动前“看见”未来

机器之心2026/02/21 21:37机翻/自动摘要/自动分类
3 阅读

内容评分

技术含量
8/10
营销水分
6/10

摘要

BridgeV2W 提出“具身掩码”技术,将机器人动作的坐标空间映射到视频生成模型的像素空间,解决了动作-像素对齐、视角鲁棒性和跨具身通用性三大难题。该模型能让机器人在行动前“预演”未来,并能利用海量无标注人类视频进行训练,显著提升了具身世界模型的规模化和泛化能力,为通用具身智能提供了新路径。

正文

人类在行动前会“预演”未来,机器人能否也具备这种能力?具身世界模型旨在让机器人在执行动作前,能在“脑海”中模拟动作后果。近年来,得益于大规模视频生成模型(如 Sora)的强大视觉能力,具身世界模型取得了显著进展。然而,机器人动作的坐标空间与视频生成模型的像素空间之间存在“语言不通”的鸿沟。

为解决这一难题,中科第五纪联合中科院自动化所团队推出了 BridgeV2W。其核心创新在于引入“具身掩码”(Embodiment Mask),一种由机器人动作渲染出的“动作剪影”。这种掩码将机器人动作的坐标信息无缝映射到像素空间,从而打通了预训练视频生成模型与世界模型之间的隔阂,使机器人能够可靠地“预演未来”。

BridgeV2W 解决了三大核心挑战:

  1. 动作与画面“语言不通”:具身掩码作为像素级信号,直接与视频模型输入空间对齐,无需模型猜测坐标含义。
  2. 视角变化导致世界“崩塌”:掩码随相机视角动态生成,确保动作与画面始终对齐,模型因此具备视角鲁棒性。
  3. 跨机器人通用性差:只需提供机器人的 URDF 模型,即可生成对应掩码,同一框架可适配不同机器人,无需修改模型结构。

技术上,BridgeV2W 采用 ControlNet 式的旁路注入,将具身掩码作为条件信号融入预训练视频生成模型。为防止模型“偷懒”,还引入了光流驱动的运动损失,聚焦于任务相关的动态区域。

实验验证:

  • DROID 数据集:在单臂操作任务中,BridgeV2W 在 PSNR、SSIM、LPIPS 等指标上超越 SOTA 方法,尤其在“未见视角”和“未见场景”下表现出优异的泛化能力。
  • AgiBot-G1 数据集:在双臂人形机器人上,BridgeV2W 无需修改模型架构,仅替换 URDF 并重新渲染掩码即可适配,预测质量媲美单臂机器人,是迈向通用具身世界模型的重要一步。

下游任务应用:

  • 策略评估:在世界模型中“试跑”策略,评估结果与真实成功率高度相关,降低试错成本。
  • 目标图像操作规划:实现从视觉目标到物理动作的闭环规划。

关键亮点:海量无标注人类视频也可用于训练。

BridgeV2W 的训练过程巧妙地利用了分割模型(如 SAM)提取的“分割掩码”,并能结合大量无标注人类视频(如 Ego4D FHO)进行训练。这意味着,即使没有详细的机器人几何信息,也能利用人类视频蕴含的丰富动作先验,通过少量机器人数据完成“具身对齐”,兼顾了可扩展性与准确性。

总结与展望:

BridgeV2W 通过“具身掩码”这一中间表征,成功架起了视频生成模型与具身世界模型的桥梁。它不仅解决了核心技术挑战,更开辟了利用海量人类视频进行世界模型规模化训练的新路径。未来,随着视频生成模型和训练数据的指数级增长,机器人的“预演能力”将迎来巨大飞跃,为通用具身智能奠定坚实基础。

标签