本地多模态 LLM 实现 PDF 视觉检索与逆向图像搜索

Reddit r/LocalLLaMA2026/02/20 22:37机翻/自动摘要/自动分类

内容评分

技术含量

5/10

营销水分

3/10

本文介绍了一款基于本地多模态 LLM 的开源工具，可对数百万张猫咪 PDF 图片进行自然语言和逆向图像检索。通过将 PDF 页面转为图像向量并存入向量数据库，实现“orange cat beach”之类的文本查询以及上传图片的相似搜索。项目已在 GitHub 开源，提供完整的部署指南。

我开发了一款开源工具，旨在利用本地大型语言模型（）对海量 PDF 文档进行视觉检索。用户只需输入自然语言描述，例如“orange cat beach”，系统即可在数百万张包含猫咪图片的 PDF 中返回最相似的文件。

在 1.1 版本中新增了逆向图像搜索功能：用户可以上传一张图片，系统会基于图像特征匹配相似的 PDF 页面。例如，将一张包含橙色猫咪和白色小猫的合成图上传后，工具会返回所有出现相同场景的 PDF。

技术实现要点：

项目已开源，欢迎在 GitHub 上 star、fork 并提交改进建议。

GitHub 项目地址： https://github.com/bcherb2/pdfiles