专题:ocr

按该标签聚合的大模型资讯列表(自动分类与标签提取)。13 篇文章。

社区Hacker News2026/03/26 19:473940
三层渲染策略实现图像无损深色模式
基于 PDF.js API 重建 CTM 定位图像

Veil 是一款浏览器端开源工具,可在保留图像原始内容与链接完整性的前提下,将 PDF 转换为舒适深色模式。其三层渲染策略(CSS 滤镜、图像保护、深色页面检测)兼顾可读性与图像保真,并通过 OCR 实现图像内文本可选中,全程本地运行、无框架依赖。

社区Hacker News2026/03/10 23:087660
统一身份验证平台,覆盖全球KYC/AML
全栈垂直整合,自主AI模型开发

Didit推出统一身份验证平台,整合AI模型与API,解决全球身份验证碎片化问题。平台支持多语言OCR、生物识别、反欺诈检测,强调数据隐私与最小化收集,提升注册率并降低成本。

官方Microsoft Azure Blog2026/03/04 00:248720
Mistral Document AI 2512实现智能文档理解
支持多语言与复杂布局,输出结构化数据

微软Foundry推出Mistral Document AI 2512,结合OCR与文档理解,实现多语言、结构化输出和复杂布局处理。适用于金融、医疗、制造等行业,提升处理效率与数据准确性,支持与ARGUS等工具集成,加速企业文档自动化流程。

社区Reddit r/LocalLLaMA2026/02/21 21:072550

本文聚焦 19 世纪德文手写体(Kurrent)的机器识别难题,评估了 Transkribus、Kraken、Tesseract 等 AI OCR 方案,并提供了以开源 Kraken 为例的完整部署与训练步骤。通过对比商业云服务与自建模型的优劣,给出实用的选型建议,帮助历史文献研究者实现批量手写文本的自动转录。

社区Reddit r/LocalLLaMA2026/02/21 18:392660

本文评估了配备 24 GB 统一内存的 Mac mini(仅 M2 Pro 可选)在本地大语言模型推理中的可行性。通过对比 M2 与 M2 Pro 机型、列出关键硬件指标,并给出 CoreML、ollama、llama.cpp 等软件栈的实测推理速度,证明 8‑B 级别的量化模型在 OCR 与文档处理工作流中能够保持 10‑30 tokens/s 的流畅性…

社区Reddit r/LocalLLaMA2026/02/20 22:545730

DocParse Arena 是一款开源自托管平台,帮助企业在本地环境中对特定文档(如自定义发票、韩文名片、复杂简历)进行 VLM 盲测,并通过私有 ELO 排行榜评估模型优劣。它支持本地模型安全接入、专业后处理插件、并行 PDF 拆分加速,以及一键 Docker 部署,适合对隐私和定制基准有高要求的场景。

社区Reddit r/LocalLLaMA2026/02/15 16:495850

Kreuzberg v4.3.0 发布,作为一款基于 Rust 的开源多语言文档智能处理框架,此次更新带来两大亮点:一是发布了配备交互式界面的可复现基准测试,详细对比了吞吐量、处理时间、内存消耗等关键指标,显示其在常见文档类型处理上的卓越性能;二是原生集成了 PaddleOCR,显著提升了中文及其他东亚语言的 OCR 质量,并移除了 LibreOffice…

社区Reddit r/LocalLLaMA2026/02/12 15:4330

Kreuzberg 开源文档智能框架发布 4.3.0 版本并推出全新对比基准。新版本加入 PaddleOCR Rust 后端、文档结构抽取以及原生 Word97 支持,显著提升中文 OCR、层级解析和遗留文档处理能力。基准测试表明其在速度、内存和冷启动等方面平均快 9 倍,依赖更少,适用于 AI 文档处理流水线。项目代码、基准工具和数据均已开源,欢迎社区贡…

社区Reddit r/LocalLLaMA2026/02/09 23:1840

用户在使用 LM Studio 将扫描的 PDF 文件转换为结构化输出时,遇到了处理速度缓慢的问题。当前流程是将 PDF 转为 JPG 图片,再加入提示词。即使在高性能设备上,效率依然低下。用户分享了相关的 Python 代码,并寻求关于优化此流程的建议,包括 LM Studio 本身或 MLX 等其他工具。

媒体AWS Machine Learning Blog2026/02/06 04:4140

Associa 与 AWS 合作,利用 GenAI IDP Accelerator 和 Amazon Bedrock 构建生成式 AI 文档分类系统,显著提升处理效率和准确性,同时降低成本。系统结合 OCR 技术与 AI 模型,优化了提示设计和模型选择,实现了 100% 的保险证书分类准确率和 95% 的会议记录准确率。该案例展示了生成式 AI 在企业文档…