Sarathi AI：基于结构化 DOM 的开源 Chrome AI 浏览器代理

近年来，AI 浏览器代理大多采用“截图 + 多模态模型” 的闭环：先截取页面图像，再让视觉模型判断点击坐标，随后循环执行。虽然可行，但受限于图像处理的时延、成本以及像素级不确定性，实际体验往往不够流畅。为突破这一瓶颈，作者实现了 Sarathi AI——一款完全基于 DOM 信息的 Chrome 扩展，摆脱了视觉识别和后端服务器的依赖。

核心工作流

扩展注入目标页面并为所有可见元素分配全局唯一 ID；
采集每个元素的元数据（标签名、文本内容、占位符、相邻标签等），形成结构化的 JSON；
将 JSON 与用户指令一起发送至（支持 OpenAI、Gemini、DeepSeek 或自定义端点）；
返回操作指令集合（如 click、type、hover、navigate、wait、pressKey 等），并指明对应的元素 ID；
扩展依据指令在页面上执行相应操作，循环直至任务完成。

主要特性

完全基于 DOM，省去截图、视觉模型和云端推理的开销；
API 密钥本地存储于 Chrome 本地存储，安全性相对可控；
通过唯一 ID 实现操作的确定性，便于调试和日志追踪；
支持多种接口，灵活对接不同模型供应商。

已实现的典型场景

打开 Gmail 并生成上下文相关的回复；
自动填写多字段表单（姓名、邮箱、电话等）；
电商网站购物流程（加入购物车、处理 OTP 暂停等）；
处理依赖 hover 效果的 UI 元素；
搜索信息、提取并朗读结果；
支持带约束的指令（如“输入内容但不发送”）。

测试表现 在大多数普通网站上，Sarathi AI 的任务完成准确率约为 90%。但在以下情形仍会失效：身份验证重定向、复杂的反机器人防护、动态生成的 Shadow DOM 等。

为何选择 DOM 而非视觉

迭代速度更快，调试成本低；
唯一 ID 保证操作的确定性，避免像素误差；
结构化数据更适合进行逻辑推理。

待完善方向

系统性评估基于 DOM 与基于视觉的优劣；
更智能的循环终止策略；
强化实际使用中的安全防护；
优化身份验证重定向的处理逻辑。

项目地址

GitHub: https://github.com/sarathisahoo/sarathi-ai-
演示视频: https://www.youtube.com/watch?v=5Voji994zYw

欢迎社区提供技术建议与批评。

Sarathi AI：基于结构化 DOM 的开源 Chrome AI 浏览器代理

内容评分

摘要

正文

标签