专题:audio-transcription

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

社区Reddit r/LocalLLaMA2026/02/16 12:285740

gUrrT是一个开源视频理解系统,不依赖大型视频语言模型(LVLMs)或复杂时间建模技术,通过视觉模型、音频转录、帧采样和RAG机制实现视频内容理解。其核心亮点在于低显存需求和模块化设计,适用于资源受限的场景,为视频分析提供了更高效的替代方案。