Kreuzberg v4.3.0 发布：原生集成 PaddleOCR，文档智能处理性能与多语言支持再升级

大家好，

我们很高兴宣布 Kreuzberg 项目的两项重要更新：

首先，我们发布了一套全新的、配备交互式用户界面且完全可复现的基准测试结果。团队投入大量时间确保这些测试能真实反映 Kreuzberg 在生产环境中的表现，并使所有性能指标透明且可验证，旨在帮助开发者深入了解其性能优势。

其次，Kreuzberg v4.3.0 版本正式发布。此版本带来了多项关键改进，其中最引人注目的是通过原生 Rust 集成引入了 PaddleOCR 作为可选后端服务。对于需要处理中文及其他东亚语言的团队而言，这一更新尤为重要，因为 PaddleOCR 在这些语言的处理上表现卓越。

Kreuzberg 简介

Kreuzberg 是一个基于 MIT 许可协议的开源多语言文档智能处理框架，核心采用 Rust 语言开发，并提供了 Python、TypeScript/JavaScript (Node、Bun、WASM)、Ruby、Java、Go、PHP、Elixir 和 C# 等多种语言的绑定。它还以命令行工具 (CLI)、Docker 镜像、REST API 服务器以及 MCP 服务器等多种形式提供。

在实际应用中，Kreuzberg 能够从超过 75 种文档和图像格式中高效提取文本、元数据、表格和结构化信息，执行光学字符识别 (OCR) 操作，并为后续的搜索、嵌入或大型语言模型 () 流程准备高质量数据。这一预处理步骤在众多 AI 应用、文档处理流程和数据管道中至关重要，因为数据质量直接决定了最终结果的准确性。

基准测试结果

新的基准测试（详情请访问：https://kreuzberg.dev/benchmarks）将 Kreuzberg 与 Apache Tika、Docling、Unstructured、PDFPlumber、PyMuPDF4LLM、MarkItDown 和 Mineru 等多个主流文档提取工具进行了全面对比。所有测试均在 GitHub Actions 中，使用标准化的 Linux 环境和统一的测试框架自动执行，确保了评估条件的一致性。我们测量的指标包括吞吐量、处理时间、内存消耗、CPU 使用率、延迟、成功率以及提取质量，涵盖了单文件处理（包括冷启动）和批量处理（并行性与吞吐量）两种场景。

总体而言，Kreuzberg 在处理 PDF、DOCX、PPTX 和 HTML 等常见文档类型时展现出更高的吞吐量；处理时间通常以毫秒计，冷启动时间比大多数竞争对手更短，且安装占用空间更小。

您可以访问项目页面查看详细的基准测试结果或下载原始数据，深入了解其性能细节。

v4.3.0 新功能亮点

除了基准测试，v4.3.0 版本还带来了以下优化和修复：

PaddleOCR 支持：通过原生 Rust 集成，实现了模型的自动下载和缓存。目前支持英语、中文、日语、韩语、德语和法语六种语言，极大地便利了在 Rust 生态系统中构建高质量 OCR 功能的流程。
结构化文档数据提取增强：进一步提升了从文档中提取结构化数据的能力。
去除 LibreOffice 依赖：通过为 .doc 和 .ppt 等传统格式引入原生提取功能，成功摆脱了对 LibreOffice 的外部依赖。减少外部依赖是项目持续关注的目标，这有助于简化部署流程，尤其是在容器化环境中，并减小安装包体积。

完整的变更日志请查阅：https://github.com/kreuzberg-dev/kreuzberg/blob/main/CHANGELOG.md

如何参与开发？

Kreuzberg 是一个开源项目，我们非常欢迎社区的贡献！感谢您的阅读，期待您的反馈。

Kreuzberg v4.3.0 发布：原生集成 PaddleOCR，文档智能处理性能与多语言支持再升级

内容评分

摘要

正文

标签