首页/详情

Sarathi AI:基于 DOM 的开源 Chrome 扩展式 AI 浏览器代理

Reddit r/LocalLLaMA2026/02/21 22:07机翻/自动摘要/自动分类
6 阅读

内容评分

技术含量
7/10
营销水分
5/10

摘要

Sarathi AI 是一款开源 Chrome 扩展,采用纯 DOM 数据而非截图进行 AI 浏览器自动化。它为页面可见元素分配唯一 ID,提取标签、文本等元信息后发送给 LLM,LLM 返回点击、输入、导航等指令,由扩展执行。该方案省去视觉模型和后端服务,提升速度与确定性,已在约 90% 的普通网站上实现 Gmail 回复、表单填充、电商购物等功能,但在身份验证重定向和复杂反机器人场景仍有局限。

正文

在当前的 AI 浏览器代理中,主流做法是先截取页面截图,再将图片喂给多模态,让模型返回点击坐标,循环往复。虽然可行,但受限于像素级别的模糊性、响应时延以及高昂的算力成本。

为了解决这些痛点,作者实现了 Sarathi AI——一款完全基于结构化 DOM 信息的 Chrome 扩展,无需截图、视觉模型或后端服务器。其工作流如下:

  1. 扩展注入目标页面并为所有可见元素分配唯一 ID;
  2. 收集每个元素的标签、文本、占位符、相邻标签等元数据;
  3. 将上述结构化数据连同用户指令封装为 JSON,发送至 OpenAI、Gemini、DeepSeek 或自定义 接口;
  4. 根据指令返回具体操作(点击、输入、悬停、导航、等待、键盘事件等);
  5. 扩展解析返回的指令并在页面上执行,直至任务完成。

核心特性

  • 完全抛弃视觉识别,使用唯一 ID 确保操作的确定性;
  • 纯前端实现,API 密钥保存在 Chrome 本地存储,无需后端支撑;
  • 支持多种常见交互:Gmail 自动回复、表单智能填充、电商购物车操作、验证码暂停、信息抽取朗读等。

当前表现 在作者的内部测试中,约 90% 的普通网站能够顺利完成任务;对身份验证重定向、复杂反机器人机制以及动态 Shadow DOM 等场景仍有局限。

为何选用 DOM

  • 结构化数据便于逻辑推理和调试;
  • 操作基于唯一 ID,避免像素误差;
  • 迭代速度快,省去图像预处理开销。

待改进方向

  • 系统性评估基于 DOM 与基于视觉的两种方案的权衡;
  • 优化任务循环的终止判定;
  • 加强安全防护,防止恶意指令执行;
  • 更优雅地处理登录/重定向等身份验证流程。

项目地址:https://github.com/sarathisahoo/sarathi-ai- 演示视频:https://www.youtube.com/watch?v=5Voji994zYw

欢迎社区提出技术建议与批评。

标签