大模型资讯聚合站

首页/详情

Sarathi AI：基于 DOM 的开源 Chrome 扩展式 AI 浏览器代理

Reddit r/LocalLLaMA2026/02/21 22:07机翻/自动摘要/自动分类

6 阅读

内容评分

技术含量

7/10

营销水分

5/10

摘要

Sarathi AI 是一款开源 Chrome 扩展，采用纯 DOM 数据而非截图进行 AI 浏览器自动化。它为页面可见元素分配唯一 ID，提取标签、文本等元信息后发送给 LLM，LLM 返回点击、输入、导航等指令，由扩展执行。该方案省去视觉模型和后端服务，提升速度与确定性，已在约 90% 的普通网站上实现 Gmail 回复、表单填充、电商购物等功能，但在身份验证重定向和复杂反机器人场景仍有局限。

正文

在当前的 AI 浏览器代理中，主流做法是先截取页面截图，再将图片喂给多模态，让模型返回点击坐标，循环往复。虽然可行，但受限于像素级别的模糊性、响应时延以及高昂的算力成本。

为了解决这些痛点，作者实现了 Sarathi AI——一款完全基于结构化 DOM 信息的 Chrome 扩展，无需截图、视觉模型或后端服务器。其工作流如下：

扩展注入目标页面并为所有可见元素分配唯一 ID；
收集每个元素的标签、文本、占位符、相邻标签等元数据；
将上述结构化数据连同用户指令封装为 JSON，发送至 OpenAI、Gemini、DeepSeek 或自定义接口；
根据指令返回具体操作（点击、输入、悬停、导航、等待、键盘事件等）；
扩展解析返回的指令并在页面上执行，直至任务完成。

核心特性

完全抛弃视觉识别，使用唯一 ID 确保操作的确定性；
纯前端实现，API 密钥保存在 Chrome 本地存储，无需后端支撑；
支持多种常见交互：Gmail 自动回复、表单智能填充、电商购物车操作、验证码暂停、信息抽取朗读等。

当前表现 在作者的内部测试中，约 90% 的普通网站能够顺利完成任务；对身份验证重定向、复杂反机器人机制以及动态 Shadow DOM 等场景仍有局限。

为何选用 DOM

结构化数据便于逻辑推理和调试；
操作基于唯一 ID，避免像素误差；
迭代速度快，省去图像预处理开销。

待改进方向

系统性评估基于 DOM 与基于视觉的两种方案的权衡；
优化任务循环的终止判定；
加强安全防护，防止恶意指令执行；
更优雅地处理登录/重定向等身份验证流程。

项目地址：https://github.com/sarathisahoo/sarathi-ai- 演示视频：https://www.youtube.com/watch?v=5Voji994zYw

欢迎社区提出技术建议与批评。

标签

DOM 自动化浏览器自动化 Chrome 扩展 AI代理大模型代理框架