极佳视界GigaBrain-0.5M* VLA大模型亮相:世界模型驱动,复杂具身任务成功率逼近100%
内容评分
摘要
极佳视界发布GigaBrain-0.5M* VLA大模型,显著提升具身智能在复杂长时程任务中的表现。该模型采用基于世界模型的强化学习范式,通过预测未来状态与价值,并结合人在回路的持续学习机制,实现了数小时零失误、近100%的任务成功率,如叠衣服、冲咖啡等。其训练数据包含10,931小时,其中61%为自研GigaWorld合成数据,有效增强了模型泛化能力与鲁棒性,为通用机器人走向开放世界奠定基础。
正文
具身智能在处理叠衣服、冲咖啡、折纸盒等复杂长时程任务时,曾面临巨大挑战。如今,极佳视界(GigaVision)推出了其进阶版VLAGigaBrain-0.5M*,刷新了这一纪录,实现了数小时零失误、持续稳定运转,并在复杂任务中达到接近100%的成功率。
GigaBrain-0.5M*是此前RoboChallenge全球第一GigaBrain-0.1的进化版本。其核心在于引入了世界模型条件驱动,利用世界模型对未来状态与价值的精准预测作为输入,显著提升了模型在长时程任务中的鲁棒性。在此基础上,模型创新性地融入了人在回路(Human-in-the-Loop)持续学习机制,通过人工筛选与校正的模型推演轨迹进行迭代训练,并基于真实环境交互反馈持续优化决策策略,从而实现了“行动—反思—进化”的闭环式自主迭代升级。
在与主流方法RECAP的对比中,GigaBrain-0.5M*将任务成功率提升了近30%,展现出卓越的性能优势。这标志着具身智能“原生范式”的一次重大变革。
基于世界模型的强化学习训练范式 极佳视界团队为GigaBrain-0.5M*提出了基于世界模型的强化学习范式,并采用迭代式四阶段闭环训练流程:
- 世界模型预训练: 基于大规模机器人操作数据,实现对未来状态及对应价值的精准预测。
- 策略网络微调: 以世界模型输出的未来状态预测与价值评估为条件,指引动作决策。
- 真实环境部署与数据采集: 将条件化策略部署至物理环境,依托人在环干预机制,采集模型自主推演轨迹数据。
- 联合优化与持续学习: 利用经筛选后的有效轨迹数据集,联合优化世界模型与决策策略,实现模型持续学习与自主进化。
数小时连续零失误执行 在与AWR、RECAP等主流模仿学习与强化学习基线方法的系统对比中,GigaBrain-0.5M展现出显著优势。相较于RECAP基线,任务成功率提升近30%,并实现了稳定可靠的模型效果。尤其在高难度长时程任务中,如折纸盒、咖啡制备、衣物折叠等包含多阶段操作、精细感知与持续决策的复杂场景,GigaBrain-0.5M均实现了接近100%的任务成功率,并可稳定复现成功执行轨迹,充分彰显了卓越的策略鲁棒性。
高效且准确的价值预测 实验结果表明,基于世界模型的价值预测方案在执行效率与预测精度上均优于VLM方案。其核心优势在于对未来状态的显式建模与世界模型单步降噪机制,为价值函数提供了关键的时序上下文支撑,实现了更高效、更精准、更稳定的价值估计。以叠衣服任务为例,价值预测曲线能高度对齐任务的物理进程,合理反映机械臂调整、稳定叠放、遭遇干扰及恢复等不同阶段的价值变化,直接体现了世界模型提供的“认知先验”。
上万小时的训练数据 GigaBrain-0.5M*的基座模型GigaBrain-0.5基于总计10,931小时的多样化机器人操作数据进行预训练。其中,61%(6,653小时)由自研具身世界模型GigaWorld高保真合成,覆盖纹理迁移、视角变换、人手到机械臂映射等丰富场景;剩余39%(4,278小时)源自真实机器人采集,确保策略在物理世界中的可执行性。海量数据的引入显著拓展了模型的任务覆盖广度与策略鲁棒性,使其在面对复杂、长时程操作任务时具备更强的泛化能力。GigaWorld生成的合成数据有效突破了真实采集的长尾瓶颈,通过可控地生成新纹理、新物体位姿与新观测视角下的训练样本,增强了模型在分布外场景中的适应性,为具身智能走向开放世界奠定了数据基石。
这背后是极佳视界对具身智能进化路径的深远布局。通过“基模-本体-场景”的深度打磨,极佳围绕世界模型平台GigaWorld、通用具身大脑GigaBrain、原生本体Maker构筑起了一套能自我进化的闭环生态。这种体系化的作战方式,旨在将进化效率提升10-100倍,推动通用机器人服务千行百业、走进千家万户。
论文链接: https://arxiv.org/pdf/2602.12099 项目链接: https://gigabrain05m.github.io/