专题:video-understanding

按该标签聚合的大模型资讯列表(自动分类与标签提取)。2 篇文章。

媒体AWS Machine Learning Blog2026/03/26 02:577830
三种视频理解架构方法
支持不同场景和成本优化

本文介绍 Amazon Bedrock 多模态模型在视频理解中的三种架构方法,涵盖帧级、剪辑级和嵌入式处理,适用于不同场景和成本需求。解决方案基于 AWS 无服务器架构,提供灵活的元数据存储和实际用例示例,帮助开发者实现高效、可扩展的视频分析。

社区Reddit r/LocalLLaMA2026/02/16 12:285740

gUrrT是一个开源视频理解系统,不依赖大型视频语言模型(LVLMs)或复杂时间建模技术,通过视觉模型、音频转录、帧采样和RAG机制实现视频内容理解。其核心亮点在于低显存需求和模块化设计,适用于资源受限的场景,为视频分析提供了更高效的替代方案。