极佳视界GigaBrain-0.5M* VLA大模型亮相：世界模型驱动，复杂具身任务成功率逼近100%

具身智能在处理叠衣服、冲咖啡、折纸盒等复杂长时程任务时，曾面临巨大挑战。如今，极佳视界（GigaVision）推出了其进阶版VLAGigaBrain-0.5M*，刷新了这一纪录，实现了数小时零失误、持续稳定运转，并在复杂任务中达到接近100%的成功率。

GigaBrain-0.5M*是此前RoboChallenge全球第一GigaBrain-0.1的进化版本。其核心在于引入了世界模型条件驱动，利用世界模型对未来状态与价值的精准预测作为输入，显著提升了模型在长时程任务中的鲁棒性。在此基础上，模型创新性地融入了人在回路（Human-in-the-Loop）持续学习机制，通过人工筛选与校正的模型推演轨迹进行迭代训练，并基于真实环境交互反馈持续优化决策策略，从而实现了“行动—反思—进化”的闭环式自主迭代升级。

在与主流方法RECAP的对比中，GigaBrain-0.5M*将任务成功率提升了近30%，展现出卓越的性能优势。这标志着具身智能“原生范式”的一次重大变革。

基于世界模型的强化学习训练范式 极佳视界团队为GigaBrain-0.5M*提出了基于世界模型的强化学习范式，并采用迭代式四阶段闭环训练流程：

世界模型预训练： 基于大规模机器人操作数据，实现对未来状态及对应价值的精准预测。
策略网络微调： 以世界模型输出的未来状态预测与价值评估为条件，指引动作决策。
真实环境部署与数据采集： 将条件化策略部署至物理环境，依托人在环干预机制，采集模型自主推演轨迹数据。
联合优化与持续学习： 利用经筛选后的有效轨迹数据集，联合优化世界模型与决策策略，实现模型持续学习与自主进化。

数小时连续零失误执行 在与AWR、RECAP等主流模仿学习与强化学习基线方法的系统对比中，GigaBrain-0.5M展现出显著优势。相较于RECAP基线，任务成功率提升近30%，并实现了稳定可靠的模型效果。尤其在高难度长时程任务中，如折纸盒、咖啡制备、衣物折叠等包含多阶段操作、精细感知与持续决策的复杂场景，GigaBrain-0.5M均实现了接近100%的任务成功率，并可稳定复现成功执行轨迹，充分彰显了卓越的策略鲁棒性。

高效且准确的价值预测 实验结果表明，基于世界模型的价值预测方案在执行效率与预测精度上均优于VLM方案。其核心优势在于对未来状态的显式建模与世界模型单步降噪机制，为价值函数提供了关键的时序上下文支撑，实现了更高效、更精准、更稳定的价值估计。以叠衣服任务为例，价值预测曲线能高度对齐任务的物理进程，合理反映机械臂调整、稳定叠放、遭遇干扰及恢复等不同阶段的价值变化，直接体现了世界模型提供的“认知先验”。

上万小时的训练数据 GigaBrain-0.5M*的基座模型GigaBrain-0.5基于总计10,931小时的多样化机器人操作数据进行预训练。其中，61%（6,653小时）由自研具身世界模型GigaWorld高保真合成，覆盖纹理迁移、视角变换、人手到机械臂映射等丰富场景；剩余39%（4,278小时）源自真实机器人采集，确保策略在物理世界中的可执行性。海量数据的引入显著拓展了模型的任务覆盖广度与策略鲁棒性，使其在面对复杂、长时程操作任务时具备更强的泛化能力。GigaWorld生成的合成数据有效突破了真实采集的长尾瓶颈，通过可控地生成新纹理、新物体位姿与新观测视角下的训练样本，增强了模型在分布外场景中的适应性，为具身智能走向开放世界奠定了数据基石。

这背后是极佳视界对具身智能进化路径的深远布局。通过“基模-本体-场景”的深度打磨，极佳围绕世界模型平台GigaWorld、通用具身大脑GigaBrain、原生本体Maker构筑起了一套能自我进化的闭环生态。这种体系化的作战方式，旨在将进化效率提升10-100倍，推动通用机器人服务千行百业、走进千家万户。

论文链接： https://arxiv.org/pdf/2602.12099 项目链接： https://gigabrain05m.github.io/

极佳视界GigaBrain-0.5M* VLA大模型亮相：世界模型驱动，复杂具身任务成功率逼近100%

内容评分

摘要

正文

标签