StreamingClaw:理想发布的流式视频理解与具身智能统一Agent框架
量子位2026/04/05 12:52机翻/自动摘要/自动分类
0 阅读
内容评分
技术含量
8/10
营销水分
5/10
摘要
理想发布的 StreamingClaw 框架实现了多模态流式视频理解与具身智能统一。通过增量计算、时间戳对齐和层级记忆,实现毫秒级感知‑决策‑执行闭环,并支持主动交互与工具调用,已在车载座舱和机器人等场景落地。未来将扩展至全模态统一代理,提升长时程建模和跨模态推理能力。
正文
理想公司近日推出全新 框架 StreamingClaw,在兼容 OpenClaw 的前提下原生支持多模态实时流式交互。该框架将视觉输入视为连续的流数据,能够在毫秒级完成感知‑决策‑执行闭环,实现“边看、边记、边行动”。
核心特性
- 流式推理(StreamingReasoning):将视频切分为细粒度片段,采用滑动窗口和增量 KV‑Cache,实现低延迟增量解码;支持自规划调度,根据指令动态选择记忆检索或主动交互路径。
- 层级记忆(StreamingMemory):多模态向量以增量节点形式存储,经过层级记忆演化(HME)形成“行动/事件”层级,支持并行时间遍历的高效检索与跨代理共享。
- 主动交互(StreamingProactivity):从属代理负责持续监控、事件预测与触发,提供免训练适配和训练适配两条路径,实现全天候在线的主动响应。
- 工具与技能闭环:统一的工具箱与技能库将决策指令直接驱动硬件或软件工具,如 Video‑Cut 精准裁剪关键片段供微观分析。
系统架构
- 时间戳对齐 + 共享流式缓存:统一多模态流的时间尺度,保证不同硬件(智能眼镜、车载芯片、机器人)输入的一致性。
- 主‑从代理协同:主代理(StreamingReasoning)负责实时感知与规划;从代理(StreamingMemory、StreamingProactivity)分别提供长时记忆与主动交互能力。
- 闭环反馈:执行结果即时回传给代理,形成感知‑决策‑执行的完整闭环。
应用场景
- 车载座舱:实时监测乘客状态(打哈欠、玩手机),主动预警并可在取车时主动问候。
- 具身机器人:识别手持物品并即时提供解答,支持长时任务规划与动态工具调用。
未来展望
当前系统仍以视觉‑文本为主,音频、细粒度时序对齐及跨模态联合推理尚未完全支持。后续计划构建全模态统一代理,进一步强化长时程建模、空间理解与低延迟部署,以支撑更真实的具身交互。
参考链接:
- https://jackyu6.github.io/StreamingClaw-Page/
- https://arxiv.org/pdf/2603.22120