专题：ocr

本文聚焦 19 世纪德文手写体（Kurrent）的机器识别难题，评估了 Transkribus、Kraken、Tesseract 等 AI OCR 方案，并提供了以开源 Kraken 为例的完整部署与训练步骤。通过对比商业云服务与自建模型的优劣，给出实用的选型建议，帮助历史文献研究者实现批量手写文本的自动转录。

手写识别历史文档 Kurrent 手写体光学字符识别 AI工具

Mac mini 24 GB 内存能否流畅运行本地 LLM？硬件选型与实测指南

原文

社区Reddit r/LocalLLaMA2026/02/21 18:392660

本文评估了配备 24 GB 统一内存的 Mac mini（仅 M2 Pro 可选）在本地大语言模型推理中的可行性。通过对比 M2 与 M2 Pro 机型、列出关键硬件指标，并给出 CoreML、ollama、llama.cpp 等软件栈的实测推理速度，证明 8‑B 级别的量化模型在 OCR 与文档处理工作流中能够保持 10‑30 tokens/s 的流畅性…

MacOS 大语言模型硬件选择光学字符识别 CoreML 部署

DocParse Arena：自托管私有 VLM 文档解析基准与 ELO 排行榜

原文

社区Reddit r/LocalLLaMA2026/02/20 22:545730

DocParse Arena 是一款开源自托管平台，帮助企业在本地环境中对特定文档（如自定义发票、韩文名片、复杂简历）进行 VLM 盲测，并通过私有 ELO 排行榜评估模型优劣。它支持本地模型安全接入、专业后处理插件、并行 PDF 拆分加速，以及一键 Docker 部署，适合对隐私和定制基准有高要求的场景。

视觉语言模型光学字符识别基准测试 Docker 隐私保障

socOCRbench：专为社会科学文档设计的OCR基准测试工具

原文

社区Reddit r/LocalLLaMA2026/02/16 09:515730

socOCRbench 是一个专为社会科学文档设计的OCR基准测试工具，旨在解决现有基准测试难以区分模型性能的问题。它聚焦于复杂实际场景，为研究者和开发者提供更贴近现实的评估标准，核心亮点在于其领域针对性和实际应用导向。

光学字符识别基准测试社会科学模型评估 AI应用

Kreuzberg v4.3.0 发布：原生集成 PaddleOCR，文档智能处理性能与多语言支持再升级

原文

社区Reddit r/LocalLLaMA2026/02/15 16:495850

Kreuzberg v4.3.0 发布，作为一款基于 Rust 的开源多语言文档智能处理框架，此次更新带来两大亮点：一是发布了配备交互式界面的可复现基准测试，详细对比了吞吐量、处理时间、内存消耗等关键指标，显示其在常见文档类型处理上的卓越性能；二是原生集成了 PaddleOCR，显著提升了中文及其他东亚语言的 OCR 质量，并移除了 LibreOffice…

文档智能光学字符识别 Rust语言 PaddleOCR 基准测试

开源文档智能框架 Kreuzberg 发布 4.3.0 版并公布对比基准，性能领先 9 倍

原文

社区Reddit r/LocalLLaMA2026/02/12 15:4330

Kreuzberg 开源文档智能框架发布 4.3.0 版本并推出全新对比基准。新版本加入 PaddleOCR Rust 后端、文档结构抽取以及原生 Word97 支持，显著提升中文 OCR、层级解析和遗留文档处理能力。基准测试表明其在速度、内存和冷启动等方面平均快 9 倍，依赖更少，适用于 AI 文档处理流水线。项目代码、基准工具和数据均已开源，欢迎社区贡…

文档智能光学字符识别 Rust语言向量嵌入基准测试

18GB RAM 本地运行的最新 OCR 模型推荐

原文

社区Reddit r/LocalLLaMA2026/02/10 13:3520

用户正在寻找一款能在 18GB RAM 的设备上本地运行的 OCR 模型，要求能够快速准确地将 PDF 转换为 Markdown。用户分享了使用 glmocr 的体验（处理 200 页 PDF 耗时 45 分钟），并希望获得模型推荐及设置步骤。

光学字符识别 PDF转Markdown 本地模型 glmocr

使用 LM Studio 将扫描的 PDF 转换为结构化输出的效率问题

原文

社区Reddit r/LocalLLaMA2026/02/09 23:1840

用户在使用 LM Studio 将扫描的 PDF 文件转换为结构化输出时，遇到了处理速度缓慢的问题。当前流程是将 PDF 转为 JPG 图片，再加入提示词。即使在高性能设备上，效率依然低下。用户分享了相关的 Python 代码，并寻求关于优化此流程的建议，包括 LM Studio 本身或 MLX 等其他工具。

LM Studio PDF处理光学字符识别提示工程性能优化

Associa 利用 AWS 生成式 AI 技术提升文档分类效率

原文

媒体AWS Machine Learning Blog2026/02/06 04:4140

Associa 与 AWS 合作，利用 GenAI IDP Accelerator 和 Amazon Bedrock 构建生成式 AI 文档分类系统，显著提升处理效率和准确性，同时降低成本。系统结合 OCR 技术与 AI 模型，优化了提示设计和模型选择，实现了 100% 的保险证书分类准确率和 95% 的会议记录准确率。该案例展示了生成式 AI 在企业文档…

生成式AI 文档分类 Amazon Bedrock 光学字符识别 AI 自动化

上下文图谱：AI编码代理的新方向与多模态模型进展

原文

媒体AINews2026/02/03 13:446830

本文介绍了多款AI模型的最新进展，包括GLM-OCR、Qwen3-Coder-Next和SERA-14B，以及上下文图谱这一新兴概念。这些模型在多模态识别、编码任务和长上下文处理方面表现出色，为AI代理的可追溯性和性能提升提供了新方向。

光学字符识别 Mixture‑of‑Experts 架构上下文图谱编码代理 AI模型