开源文档智能框架 Kreuzberg 发布 4.3.0 版并公布对比基准，性能领先 9 倍

Kreuzberg 是一款基于 Rust 的多语言文档智能框架，提供 Python、TypeScript/JavaScript、PHP、Ruby、Java、C#、Golang、Elixir 等绑定，并可通过 Docker 镜像或 Homebrew 安装。它能够从 75 种以上文件格式中提取文本、执行 OCR、生成向量嵌入等，广泛用于 AI 应用、数据流水线和机器学习等场景。\n\n对比基准\n项目发布了全新的可视化基准套件，比较了 Kreuzberg 与 Apache Tika、Docling、Markitdown、Unstructured.io、PDFPlumber、Mineru、MuPDF4LLM 等主流开源方案。结果显示，Kreuzberg 在平均速度上快约 9 倍，内存占用更低，冷启动时间更短，安装体积更小，且仅依赖 onnxruntime（用于嵌入和 PaddleOCR）。基准覆盖 50 多种文件格式，测量指标包括吞吐量、时延（p99/p95/p50）、内存、安装大小和冷启动时间，全部在 GitHub CI（Ubuntu latest）上运行，完整代码和数据已开源。\n\nv4.3.0 主要更新\n- PaddleOCR 可选后端（Rust 实现）：在所有语言绑定（除 WASM）中提供高效的中文及东亚语言 OCR 支持。\n- 文档结构抽取：新增对 PDF 等文本文件的层级结构解析，效果可与 Docling 相媲美。\n- 原生 Word97（.doc/.ppt）解析：直接在 Rust 中处理旧版 Office 文档，摆脱 LibreOffice 依赖，显著减小部署体积，适合企业和政府等对遗留文档有需求的场景。\n\n参与方式\nKreuzberg 采用 MIT 许可证，欢迎在 GitHub 提交 Issue、参与讨论或贡献代码。项目地址、基准代码及完整数据均已公开，社区可自行复现或扩展。

开源文档智能框架 Kreuzberg 发布 4.3.0 版并公布对比基准，性能领先 9 倍

摘要

正文

标签