Gemini Embedding 2原生支持视频嵌入,实现亚秒级视频搜索
Hacker News2026/03/24 22:58机翻/自动摘要/自动分类
7 阅读
内容评分
技术含量
8/10
营销水分
6/10
摘要
Gemini Embedding 2新增原生视频嵌入功能,无需转录即可实现视频与文本的向量匹配。作者开发了CLI工具,用于视频索引和自然语言搜索,支持自动裁剪匹配片段。该技术适用于监控、哨兵模式等场景,索引成本较低,具有实际应用价值。
正文
Gemini Embedding 2现已支持将原始视频直接映射到768维的向量空间中,与文本一同进行处理。这一功能无需视频转录或添加帧字幕,也不依赖任何中间文本处理步骤。例如,用户可以通过自然语言查询如'一辆绿色汽车从我前面超车',在向量层面直接与30秒的视频片段进行匹配。作者基于此技术开发了一个命令行工具(CLI),可将数小时的视频素材索引至ChromaDB数据库,并通过自然语言搜索,自动裁剪出匹配的视频片段。相关演示视频可在GitHub的README文件中查看。索引成本约为每小时2.50美元,对于监控摄像头或哨兵模式等视频素材,由于能跳过静态画面,索引成本会更低。