专题：audio-transcription

gUrrT：一种无需依赖大型视频语言模型的开源视频理解系统

社区Reddit r/LocalLLaMA2026/02/16 12:285740

gUrrT是一个开源视频理解系统，不依赖大型视频语言模型（LVLMs）或复杂时间建模技术，通过视觉模型、音频转录、帧采样和RAG机制实现视频内容理解。其核心亮点在于低显存需求和模块化设计，适用于资源受限的场景，为视频分析提供了更高效的替代方案。