首页/详情

Kreuzberg v4.3.0 发布:原生集成 PaddleOCR,文档智能处理性能与多语言支持再升级

Reddit r/LocalLLaMA2026/02/15 16:49机翻/自动摘要/自动分类
5 阅读

内容评分

技术含量
8/10
营销水分
5/10

摘要

Kreuzberg v4.3.0 发布,作为一款基于 Rust 的开源多语言文档智能处理框架,此次更新带来两大亮点:一是发布了配备交互式界面的可复现基准测试,详细对比了吞吐量、处理时间、内存消耗等关键指标,显示其在常见文档类型处理上的卓越性能;二是原生集成了 PaddleOCR,显著提升了中文及其他东亚语言的 OCR 质量,并移除了 LibreOffice 依赖,简化了部署。Kreuzberg 旨在高效提取文档和图像中的结构化信息,为 LLM 数据预处理提供高质量输入,是 AI 应用和数据管道的关键组件。

正文

大家好,

我们很高兴宣布 Kreuzberg 项目的两项重要更新:

首先,我们发布了一套全新的、配备交互式用户界面且完全可复现的基准测试结果。团队投入大量时间确保这些测试能真实反映 Kreuzberg 在生产环境中的表现,并使所有性能指标透明且可验证,旨在帮助开发者深入了解其性能优势。

其次,Kreuzberg v4.3.0 版本正式发布。此版本带来了多项关键改进,其中最引人注目的是通过原生 Rust 集成引入了 PaddleOCR 作为可选后端服务。对于需要处理中文及其他东亚语言的团队而言,这一更新尤为重要,因为 PaddleOCR 在这些语言的处理上表现卓越。

Kreuzberg 简介

Kreuzberg 是一个基于 MIT 许可协议的开源多语言文档智能处理框架,核心采用 Rust 语言开发,并提供了 Python、TypeScript/JavaScript (Node、Bun、WASM)、Ruby、Java、Go、PHP、Elixir 和 C# 等多种语言的绑定。它还以命令行工具 (CLI)、Docker 镜像、REST API 服务器以及 MCP 服务器等多种形式提供。

在实际应用中,Kreuzberg 能够从超过 75 种文档和图像格式中高效提取文本、元数据、表格和结构化信息,执行光学字符识别 (OCR) 操作,并为后续的搜索、嵌入或大型语言模型 () 流程准备高质量数据。这一预处理步骤在众多 AI 应用、文档处理流程和数据管道中至关重要,因为数据质量直接决定了最终结果的准确性。

基准测试结果

新的基准测试(详情请访问:https://kreuzberg.dev/benchmarks)将 Kreuzberg 与 Apache Tika、Docling、Unstructured、PDFPlumber、PyMuPDF4LLM、MarkItDown 和 Mineru 等多个主流文档提取工具进行了全面对比。所有测试均在 GitHub Actions 中,使用标准化的 Linux 环境和统一的测试框架自动执行,确保了评估条件的一致性。我们测量的指标包括吞吐量、处理时间、内存消耗、CPU 使用率、延迟、成功率以及提取质量,涵盖了单文件处理(包括冷启动)和批量处理(并行性与吞吐量)两种场景。

总体而言,Kreuzberg 在处理 PDF、DOCX、PPTX 和 HTML 等常见文档类型时展现出更高的吞吐量;处理时间通常以毫秒计,冷启动时间比大多数竞争对手更短,且安装占用空间更小。

您可以访问项目页面查看详细的基准测试结果或下载原始数据,深入了解其性能细节。

v4.3.0 新功能亮点

除了基准测试,v4.3.0 版本还带来了以下优化和修复:

  • PaddleOCR 支持:通过原生 Rust 集成,实现了模型的自动下载和缓存。目前支持英语、中文、日语、韩语、德语和法语六种语言,极大地便利了在 Rust 生态系统中构建高质量 OCR 功能的流程。
  • 结构化文档数据提取增强:进一步提升了从文档中提取结构化数据的能力。
  • 去除 LibreOffice 依赖:通过为 .doc 和 .ppt 等传统格式引入原生提取功能,成功摆脱了对 LibreOffice 的外部依赖。减少外部依赖是项目持续关注的目标,这有助于简化部署流程,尤其是在容器化环境中,并减小安装包体积。

完整的变更日志请查阅:https://github.com/kreuzberg-dev/kreuzberg/blob/main/CHANGELOG.md

如何参与开发?

Kreuzberg 是一个开源项目,我们非常欢迎社区的贡献!感谢您的阅读,期待您的反馈。

标签