谷歌发布Gemini Embedding 2：多模态数据统一嵌入空间

量子位2026/03/11 17:30机翻/自动摘要/自动分类

内容评分

技术含量

9/10

营销水分

8/10

摘要

谷歌推出Gemini Embedding 2，首次将文本、图像、视频、音频和文档统一映射到同一语义空间，实现跨模态语义对齐。该模型支持多模态混合输入，提升AI Agent理解屏幕和环境的能力，技术上采用MRL方法，可动态调整向量维度，适用于RAG、语义搜索、情感分析等场景。

正文

谷歌近日发布了其首个原生多模态嵌入模型Gemini Embedding 2，该模型首次将文本、图像、视频、音频和文档统一映射到同一个语义嵌入空间，实现了跨模态语义对齐。Gemini Embedding 2支持多种数据类型，包括最多8192个的文本、6张图像、120秒视频、PDF文档等，并且能够处理多模态混合输入。该模型在性能上超越了上一代，为AI 和具身智能提供了关键的语义基础。技术上，Gemini Embedding 2继续采用Matryoshka Representation Learning（MRL）方法，支持动态维度缩减，以平衡性能与存储成本。此外，该模型可通过Gemini API和多种工具调用，为下一代多模态AI应用奠定基础设施。

谷歌发布Gemini Embedding 2：多模态数据统一嵌入空间

内容评分

摘要

正文

标签