首页/详情

StreamingClaw:理想发布的流式视频理解与具身智能统一Agent框架

量子位2026/04/05 12:52机翻/自动摘要/自动分类
0 阅读

内容评分

技术含量
8/10
营销水分
5/10

摘要

理想发布的 StreamingClaw 框架实现了多模态流式视频理解与具身智能统一。通过增量计算、时间戳对齐和层级记忆,实现毫秒级感知‑决策‑执行闭环,并支持主动交互与工具调用,已在车载座舱和机器人等场景落地。未来将扩展至全模态统一代理,提升长时程建模和跨模态推理能力。

正文

理想公司近日推出全新 框架 StreamingClaw,在兼容 OpenClaw 的前提下原生支持多模态实时流式交互。该框架将视觉输入视为连续的流数据,能够在毫秒级完成感知‑决策‑执行闭环,实现“边看、边记、边行动”。

核心特性

  1. 流式推理(StreamingReasoning):将视频切分为细粒度片段,采用滑动窗口和增量 KV‑Cache,实现低延迟增量解码;支持自规划调度,根据指令动态选择记忆检索或主动交互路径。
  2. 层级记忆(StreamingMemory):多模态向量以增量节点形式存储,经过层级记忆演化(HME)形成“行动/事件”层级,支持并行时间遍历的高效检索与跨代理共享。
  3. 主动交互(StreamingProactivity):从属代理负责持续监控、事件预测与触发,提供免训练适配和训练适配两条路径,实现全天候在线的主动响应。
  4. 工具与技能闭环:统一的工具箱与技能库将决策指令直接驱动硬件或软件工具,如 Video‑Cut 精准裁剪关键片段供微观分析。

系统架构

  • 时间戳对齐 + 共享流式缓存:统一多模态流的时间尺度,保证不同硬件(智能眼镜、车载芯片、机器人)输入的一致性。
  • 主‑从代理协同:主代理(StreamingReasoning)负责实时感知与规划;从代理(StreamingMemory、StreamingProactivity)分别提供长时记忆与主动交互能力。
  • 闭环反馈:执行结果即时回传给代理,形成感知‑决策‑执行的完整闭环。

应用场景

  • 车载座舱:实时监测乘客状态(打哈欠、玩手机),主动预警并可在取车时主动问候。
  • 具身机器人:识别手持物品并即时提供解答,支持长时任务规划与动态工具调用。

未来展望

当前系统仍以视觉‑文本为主,音频、细粒度时序对齐及跨模态联合推理尚未完全支持。后续计划构建全模态统一代理,进一步强化长时程建模、空间理解与低延迟部署,以支撑更真实的具身交互。

参考链接:

  1. https://jackyu6.github.io/StreamingClaw-Page/
  2. https://arxiv.org/pdf/2603.22120

标签