Veil 是一款浏览器端开源工具,可在保留图像原始内容与链接完整性的前提下,将 PDF 转换为舒适深色模式。其三层渲染策略(CSS 滤镜、图像保护、深色页面检测)兼顾可读性与图像保真,并通过 OCR 实现图像内文本可选中,全程本地运行、无框架依赖。
专题:ocr
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 13 篇文章。
Didit推出统一身份验证平台,整合AI模型与API,解决全球身份验证碎片化问题。平台支持多语言OCR、生物识别、反欺诈检测,强调数据隐私与最小化收集,提升注册率并降低成本。
微软Foundry推出Mistral Document AI 2512,结合OCR与文档理解,实现多语言、结构化输出和复杂布局处理。适用于金融、医疗、制造等行业,提升处理效率与数据准确性,支持与ARGUS等工具集成,加速企业文档自动化流程。
本文聚焦 19 世纪德文手写体(Kurrent)的机器识别难题,评估了 Transkribus、Kraken、Tesseract 等 AI OCR 方案,并提供了以开源 Kraken 为例的完整部署与训练步骤。通过对比商业云服务与自建模型的优劣,给出实用的选型建议,帮助历史文献研究者实现批量手写文本的自动转录。
本文评估了配备 24 GB 统一内存的 Mac mini(仅 M2 Pro 可选)在本地大语言模型推理中的可行性。通过对比 M2 与 M2 Pro 机型、列出关键硬件指标,并给出 CoreML、ollama、llama.cpp 等软件栈的实测推理速度,证明 8‑B 级别的量化模型在 OCR 与文档处理工作流中能够保持 10‑30 tokens/s 的流畅性…
DocParse Arena 是一款开源自托管平台,帮助企业在本地环境中对特定文档(如自定义发票、韩文名片、复杂简历)进行 VLM 盲测,并通过私有 ELO 排行榜评估模型优劣。它支持本地模型安全接入、专业后处理插件、并行 PDF 拆分加速,以及一键 Docker 部署,适合对隐私和定制基准有高要求的场景。
socOCRbench 是一个专为社会科学文档设计的OCR基准测试工具,旨在解决现有基准测试难以区分模型性能的问题。它聚焦于复杂实际场景,为研究者和开发者提供更贴近现实的评估标准,核心亮点在于其领域针对性和实际应用导向。
Kreuzberg v4.3.0 发布,作为一款基于 Rust 的开源多语言文档智能处理框架,此次更新带来两大亮点:一是发布了配备交互式界面的可复现基准测试,详细对比了吞吐量、处理时间、内存消耗等关键指标,显示其在常见文档类型处理上的卓越性能;二是原生集成了 PaddleOCR,显著提升了中文及其他东亚语言的 OCR 质量,并移除了 LibreOffice…
Kreuzberg 开源文档智能框架发布 4.3.0 版本并推出全新对比基准。新版本加入 PaddleOCR Rust 后端、文档结构抽取以及原生 Word97 支持,显著提升中文 OCR、层级解析和遗留文档处理能力。基准测试表明其在速度、内存和冷启动等方面平均快 9 倍,依赖更少,适用于 AI 文档处理流水线。项目代码、基准工具和数据均已开源,欢迎社区贡…
用户正在寻找一款能在 18GB RAM 的设备上本地运行的 OCR 模型,要求能够快速准确地将 PDF 转换为 Markdown。用户分享了使用 glmocr 的体验(处理 200 页 PDF 耗时 45 分钟),并希望获得模型推荐及设置步骤。
用户在使用 LM Studio 将扫描的 PDF 文件转换为结构化输出时,遇到了处理速度缓慢的问题。当前流程是将 PDF 转为 JPG 图片,再加入提示词。即使在高性能设备上,效率依然低下。用户分享了相关的 Python 代码,并寻求关于优化此流程的建议,包括 LM Studio 本身或 MLX 等其他工具。
Associa 与 AWS 合作,利用 GenAI IDP Accelerator 和 Amazon Bedrock 构建生成式 AI 文档分类系统,显著提升处理效率和准确性,同时降低成本。系统结合 OCR 技术与 AI 模型,优化了提示设计和模型选择,实现了 100% 的保险证书分类准确率和 95% 的会议记录准确率。该案例展示了生成式 AI 在企业文档…
本文介绍了多款AI模型的最新进展,包括GLM-OCR、Qwen3-Coder-Next和SERA-14B,以及上下文图谱这一新兴概念。这些模型在多模态识别、编码任务和长上下文处理方面表现出色,为AI代理的可追溯性和性能提升提供了新方向。