开源文档智能框架 Kreuzberg 发布 4.3.0 版并公布对比基准,性能领先 9 倍
摘要
Kreuzberg 开源文档智能框架发布 4.3.0 版本并推出全新对比基准。新版本加入 PaddleOCR Rust 后端、文档结构抽取以及原生 Word97 支持,显著提升中文 OCR、层级解析和遗留文档处理能力。基准测试表明其在速度、内存和冷启动等方面平均快 9 倍,依赖更少,适用于 AI 文档处理流水线。项目代码、基准工具和数据均已开源,欢迎社区贡献。
正文
Kreuzberg 是一款基于 Rust 的多语言文档智能框架,提供 Python、TypeScript/JavaScript、PHP、Ruby、Java、C#、Golang、Elixir 等绑定,并可通过 Docker 镜像或 Homebrew 安装。它能够从 75 种以上文件格式中提取文本、执行 OCR、生成向量嵌入等,广泛用于 AI 应用、数据流水线和机器学习等场景。\n\n对比基准\n项目发布了全新的可视化基准套件,比较了 Kreuzberg 与 Apache Tika、Docling、Markitdown、Unstructured.io、PDFPlumber、Mineru、MuPDF4LLM 等主流开源方案。结果显示,Kreuzberg 在平均速度上快约 9 倍,内存占用更低,冷启动时间更短,安装体积更小,且仅依赖 onnxruntime(用于嵌入和 PaddleOCR)。基准覆盖 50 多种文件格式,测量指标包括吞吐量、时延(p99/p95/p50)、内存、安装大小和冷启动时间,全部在 GitHub CI(Ubuntu latest)上运行,完整代码和数据已开源。\n\nv4.3.0 主要更新\n- PaddleOCR 可选后端(Rust 实现):在所有语言绑定(除 WASM)中提供高效的中文及东亚语言 OCR 支持。\n- 文档结构抽取:新增对 PDF 等文本文件的层级结构解析,效果可与 Docling 相媲美。\n- 原生 Word97(.doc/.ppt)解析:直接在 Rust 中处理旧版 Office 文档,摆脱 LibreOffice 依赖,显著减小部署体积,适合企业和政府等对遗留文档有需求的场景。\n\n参与方式\nKreuzberg 采用 MIT 许可证,欢迎在 GitHub 提交 Issue、参与讨论或贡献代码。项目地址、基准代码及完整数据均已公开,社区可自行复现或扩展。