gUrrT:一种无需依赖大型视频语言模型的开源视频理解系统原文社区Reddit r/LocalLLaMA2026/02/16 12:285740gUrrT是一个开源视频理解系统,不依赖大型视频语言模型(LVLMs)或复杂时间建模技术,通过视觉模型、音频转录、帧采样和RAG机制实现视频内容理解。其核心亮点在于低显存需求和模块化设计,适用于资源受限的场景,为视频分析提供了更高效的替代方案。视频理解检索增强生成帧采样音频转录开源项目