Lightfeed Extractor：基于TypeScript的LLM网页数据提取工具

Hacker News2026/03/26 11:55机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

6/10

摘要

Lightfeed Extractor 是一个基于 TypeScript 的网页数据提取库，结合 LLM 技术实现从 HTML 到结构化数据的自动化处理。其核心亮点包括 HTML 清理、Markdown 转换、类型安全验证、错误恢复机制以及支持多种 LLM 平台，适用于网页数据抓取和结构化提取场景。

正文

我们一直在构建用于抓取网站并提取结构化数据的数据管道。在实际操作中，编写CSS选择器容易因网站布局变化而失效，导致解析错误。为了解决这一问题，我们尝试使用（如GPT）来处理HTML内容，但发现原始HTML中包含大量无用信息（如导航栏、页脚、跟踪代码），占用了大量令牌资源。此外，返回的JSON数据常存在格式错误，嵌套结构处理复杂，且相对URL、Markdown转义、跟踪参数等问题会影响数据质量。为避免重复编写相同代码，我们开发了Lightfeed Extractor，这是一个TypeScript库，能够完成从HTML到结构化数据的全流程处理，包括HTML清理、Markdown转换、调用、类型安全验证、错误恢复和自动化页面导航。该库已通过实际生产环境验证，现决定开源。

Lightfeed Extractor：基于TypeScript的LLM网页数据提取工具

内容评分

摘要

正文

标签