视觉增强型检索(Vision RAG):多模态文档搜索新范式原文官方MongoDB Blog2026/01/13 00:006840视觉增强型检索(Vision RAG)是一种基于多模态嵌入的检索增强生成方法,用于处理企业中的非文本文档。它通过统一编码器实现文本与图像的一致表示,避免了传统OCR的复杂性和低效性,提升了搜索效率和准确性。文章提供了实现步骤和代码示例,对开发者具有实际参考价值。视觉增强型检索多模态嵌入LLM检索增强文档搜索AI架构优化