Sarathi AI:基于 DOM 的开源 Chrome 扩展式 AI 浏览器代理
Reddit r/LocalLLaMA2026/02/21 22:07机翻/自动摘要/自动分类
6 阅读
内容评分
技术含量
7/10
营销水分
5/10
摘要
Sarathi AI 是一款开源 Chrome 扩展,采用纯 DOM 数据而非截图进行 AI 浏览器自动化。它为页面可见元素分配唯一 ID,提取标签、文本等元信息后发送给 LLM,LLM 返回点击、输入、导航等指令,由扩展执行。该方案省去视觉模型和后端服务,提升速度与确定性,已在约 90% 的普通网站上实现 Gmail 回复、表单填充、电商购物等功能,但在身份验证重定向和复杂反机器人场景仍有局限。
正文
在当前的 AI 浏览器代理中,主流做法是先截取页面截图,再将图片喂给多模态,让模型返回点击坐标,循环往复。虽然可行,但受限于像素级别的模糊性、响应时延以及高昂的算力成本。
为了解决这些痛点,作者实现了 Sarathi AI——一款完全基于结构化 DOM 信息的 Chrome 扩展,无需截图、视觉模型或后端服务器。其工作流如下:
- 扩展注入目标页面并为所有可见元素分配唯一 ID;
- 收集每个元素的标签、文本、占位符、相邻标签等元数据;
- 将上述结构化数据连同用户指令封装为 JSON,发送至 OpenAI、Gemini、DeepSeek 或自定义 接口;
- 根据指令返回具体操作(点击、输入、悬停、导航、等待、键盘事件等);
- 扩展解析返回的指令并在页面上执行,直至任务完成。
核心特性
- 完全抛弃视觉识别,使用唯一 ID 确保操作的确定性;
- 纯前端实现,API 密钥保存在 Chrome 本地存储,无需后端支撑;
- 支持多种常见交互:Gmail 自动回复、表单智能填充、电商购物车操作、验证码暂停、信息抽取朗读等。
当前表现 在作者的内部测试中,约 90% 的普通网站能够顺利完成任务;对身份验证重定向、复杂反机器人机制以及动态 Shadow DOM 等场景仍有局限。
为何选用 DOM
- 结构化数据便于逻辑推理和调试;
- 操作基于唯一 ID,避免像素误差;
- 迭代速度快,省去图像预处理开销。
待改进方向
- 系统性评估基于 DOM 与基于视觉的两种方案的权衡;
- 优化任务循环的终止判定;
- 加强安全防护,防止恶意指令执行;
- 更优雅地处理登录/重定向等身份验证流程。
项目地址:https://github.com/sarathisahoo/sarathi-ai- 演示视频:https://www.youtube.com/watch?v=5Voji994zYw
欢迎社区提出技术建议与批评。