首页/详情

谷歌发布Gemini Embedding 2:多模态数据统一嵌入空间

量子位2026/03/11 17:30机翻/自动摘要/自动分类
2 阅读

内容评分

技术含量
9/10
营销水分
8/10

摘要

谷歌推出Gemini Embedding 2,首次将文本、图像、视频、音频和文档统一映射到同一语义空间,实现跨模态语义对齐。该模型支持多模态混合输入,提升AI Agent理解屏幕和环境的能力,技术上采用MRL方法,可动态调整向量维度,适用于RAG、语义搜索、情感分析等场景。

正文

谷歌近日发布了其首个原生多模态嵌入模型Gemini Embedding 2,该模型首次将文本、图像、视频、音频和文档统一映射到同一个语义嵌入空间,实现了跨模态语义对齐。Gemini Embedding 2支持多种数据类型,包括最多8192个的文本、6张图像、120秒视频、PDF文档等,并且能够处理多模态混合输入。该模型在性能上超越了上一代,为AI 和具身智能提供了关键的语义基础。技术上,Gemini Embedding 2继续采用Matryoshka Representation Learning(MRL)方法,支持动态维度缩减,以平衡性能与存储成本。此外,该模型可通过Gemini API和多种工具调用,为下一代多模态AI应用奠定基础设施。

标签