BridgeV2W：用“动作剪影”打通视频生成与机器人世界模型，让机器人在行动前“看见”未来

人类在行动前会“预演”未来，机器人能否也具备这种能力？具身世界模型旨在让机器人在执行动作前，能在“脑海”中模拟动作后果。近年来，得益于大规模视频生成模型（如 Sora）的强大视觉能力，具身世界模型取得了显著进展。然而，机器人动作的坐标空间与视频生成模型的像素空间之间存在“语言不通”的鸿沟。

为解决这一难题，中科第五纪联合中科院自动化所团队推出了 BridgeV2W。其核心创新在于引入“具身掩码”（Embodiment Mask），一种由机器人动作渲染出的“动作剪影”。这种掩码将机器人动作的坐标信息无缝映射到像素空间，从而打通了预训练视频生成模型与世界模型之间的隔阂，使机器人能够可靠地“预演未来”。

BridgeV2W 解决了三大核心挑战：

动作与画面“语言不通”：具身掩码作为像素级信号，直接与视频模型输入空间对齐，无需模型猜测坐标含义。
视角变化导致世界“崩塌”：掩码随相机视角动态生成，确保动作与画面始终对齐，模型因此具备视角鲁棒性。
跨机器人通用性差：只需提供机器人的 URDF 模型，即可生成对应掩码，同一框架可适配不同机器人，无需修改模型结构。

技术上，BridgeV2W 采用 ControlNet 式的旁路注入，将具身掩码作为条件信号融入预训练视频生成模型。为防止模型“偷懒”，还引入了光流驱动的运动损失，聚焦于任务相关的动态区域。

实验验证：

DROID 数据集：在单臂操作任务中，BridgeV2W 在 PSNR、SSIM、LPIPS 等指标上超越 SOTA 方法，尤其在“未见视角”和“未见场景”下表现出优异的泛化能力。
AgiBot-G1 数据集：在双臂人形机器人上，BridgeV2W 无需修改模型架构，仅替换 URDF 并重新渲染掩码即可适配，预测质量媲美单臂机器人，是迈向通用具身世界模型的重要一步。

下游任务应用：

策略评估：在世界模型中“试跑”策略，评估结果与真实成功率高度相关，降低试错成本。
目标图像操作规划：实现从视觉目标到物理动作的闭环规划。

关键亮点：海量无标注人类视频也可用于训练。

BridgeV2W 的训练过程巧妙地利用了分割模型（如 SAM）提取的“分割掩码”，并能结合大量无标注人类视频（如 Ego4D FHO）进行训练。这意味着，即使没有详细的机器人几何信息，也能利用人类视频蕴含的丰富动作先验，通过少量机器人数据完成“具身对齐”，兼顾了可扩展性与准确性。

总结与展望：

BridgeV2W 通过“具身掩码”这一中间表征，成功架起了视频生成模型与具身世界模型的桥梁。它不仅解决了核心技术挑战，更开辟了利用海量人类视频进行世界模型规模化训练的新路径。未来，随着视频生成模型和训练数据的指数级增长，机器人的“预演能力”将迎来巨大飞跃，为通用具身智能奠定坚实基础。

BridgeV2W：用“动作剪影”打通视频生成与机器人世界模型，让机器人在行动前“看见”未来

内容评分

摘要

正文

标签