CineTrans：基于掩码机制的多镜头视频生成模型，实现时间级可控转场

机器之心2026/02/15 18:32机翻/自动摘要/自动分类

内容评分

技术含量

9/10

营销水分

5/10

摘要

CineTrans 是一种基于掩码机制的多镜头视频生成模型，通过块对角掩码架构实现时间级可控转场。它结合了扩散模型与注意力机制，引入了高质量的 Cine250K 数据集，提升了多镜头视频生成的自然性和语义连贯性。该模型在 ICLR 2026 接收，具备较强的实验支撑和实际应用价值。

正文

随着视频生成模型在画面质量、条件控制和美学表现上的不断进步，影视级长视频生成成为研究热点。然而，多镜头序列（Multi-shot Sequence）的生成仍面临转场自然性、语义连贯性和时间级控制等挑战。上海人工智能实验室的研究团队提出了一种基于掩码机制的创新方法 CineTrans，通过块对角掩码架构（Block-Diagonal Mask Mechanism）实现对视频生成模型的转场控制。该方法以第一帧为锚点，结合扩散模型的特性，在不破坏模型结构的前提下实现时间级转场控制。CineTrans 还引入了 Cine250K 数据集，该数据集经过精细设计，包含约 25 万个多镜头视频-文本对，为模型训练提供了丰富的先验知识。此外，作者在视频-文本交叉注意力结构中引入了镜头级掩码机制，实现内容的细粒度控制。实验结果显示，CineTrans 在转场控制得分和模型泛化性方面显著优于现有方法，其生成的视频在一致性分布上也更接近人类剪辑习惯。

CineTrans：基于掩码机制的多镜头视频生成模型，实现时间级可控转场

内容评分

摘要

正文

标签