大模型资讯聚合站

首页/详情

StreamingClaw：理想发布的流式视频理解与具身智能统一Agent框架

量子位2026/04/05 12:52机翻/自动摘要/自动分类

0 阅读

内容评分

技术含量

8/10

营销水分

5/10

摘要

理想发布的 StreamingClaw 框架实现了多模态流式视频理解与具身智能统一。通过增量计算、时间戳对齐和层级记忆，实现毫秒级感知‑决策‑执行闭环，并支持主动交互与工具调用，已在车载座舱和机器人等场景落地。未来将扩展至全模态统一代理，提升长时程建模和跨模态推理能力。

正文

理想公司近日推出全新框架 StreamingClaw，在兼容 OpenClaw 的前提下原生支持多模态实时流式交互。该框架将视觉输入视为连续的流数据，能够在毫秒级完成感知‑决策‑执行闭环，实现“边看、边记、边行动”。

核心特性

流式推理（StreamingReasoning）：将视频切分为细粒度片段，采用滑动窗口和增量 KV‑Cache，实现低延迟增量解码；支持自规划调度，根据指令动态选择记忆检索或主动交互路径。
层级记忆（StreamingMemory）：多模态向量以增量节点形式存储，经过层级记忆演化（HME）形成“行动/事件”层级，支持并行时间遍历的高效检索与跨代理共享。
主动交互（StreamingProactivity）：从属代理负责持续监控、事件预测与触发，提供免训练适配和训练适配两条路径，实现全天候在线的主动响应。
工具与技能闭环：统一的工具箱与技能库将决策指令直接驱动硬件或软件工具，如 Video‑Cut 精准裁剪关键片段供微观分析。

系统架构

时间戳对齐 + 共享流式缓存：统一多模态流的时间尺度，保证不同硬件（智能眼镜、车载芯片、机器人）输入的一致性。
主‑从代理协同：主代理（StreamingReasoning）负责实时感知与规划；从代理（StreamingMemory、StreamingProactivity）分别提供长时记忆与主动交互能力。
闭环反馈：执行结果即时回传给代理，形成感知‑决策‑执行的完整闭环。

应用场景

车载座舱：实时监测乘客状态（打哈欠、玩手机），主动预警并可在取车时主动问候。
具身机器人：识别手持物品并即时提供解答，支持长时任务规划与动态工具调用。

未来展望

当前系统仍以视觉‑文本为主，音频、细粒度时序对齐及跨模态联合推理尚未完全支持。后续计划构建全模态统一代理，进一步强化长时程建模、空间理解与低延迟部署，以支撑更真实的具身交互。

参考链接：

https://jackyu6.github.io/StreamingClaw-Page/
https://arxiv.org/pdf/2603.22120

标签

具身智能工具集成多模态代理实时记忆流式推理