国产视频模型SkyReels-V4跻身全球榜TOP2:实现音视频一体化多模态生成与编辑
内容评分
摘要
昆仑天工的国产视频模型SkyReels-V4在Artificial Analysis榜单中位列全球TOP2。它以音视频一体化的多模态生成与编辑为核心,采用双流MMDiT架构,支持文本、图像、视频、音频等多种输入。模型实现音画同步生成、专业级视频修复及全维度编辑,通过先进技术将AI视频创作推向高画质、高效率的全流程一体化。
正文
全球视频榜单迎来新突破,国产模型SkyReels-V4成功杀入前2。根据权威第三方机构Artificial Analysis的最新排行榜,昆仑天工的SkyReels-V4在文转视频(含音频)全球榜中位列第2,超越了Veo 3.1和Sora 2。在历史总榜中,SkyReels-V4也冲至第4位,稳居全球第一梯队。Artificial Analysis以其独立测试闻名,确保了这些成绩的含金量。
SkyReels-V4的亮点不仅在于纯文生视频,更在于其强大的多模态组合生成能力。它支持文本、图像、视频片段、掩码、音频参考等多种输入混合,实现“图像A的主体”+“视频B的动作”+“音频C的背景音”等一体化生成。在SkyReels-V3开源仅一个月后,V4便携全球TOP2的成绩登场,展现了昆仑天工快速的迭代节奏和扎实的技术实力。
核心能力展示:
-
多模态精准控制: SkyReels-V4是全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。例如,通过指令“把@video_1中左侧身穿白上衣配牛仔裤跳舞的女性替换为@image_1里的狗,并将@video_1中右侧身穿全套西装跳舞的男性替换为@image_2 里的猫,确保动作保持一致”,模型能精准提取图像主体的毛色、身形,并将其无缝迁移到视频人物上,同时保留原视频的舞台、观众、音乐和动作,甚至实现动作与音乐的精准卡点。这体现了模型对多模态参考的精准控制,包括基于参考图像的风格迁移与主体保留、音频驱动的动作生成以及多参考融合创作。
-
专业级视频修复: SkyReels-V4支持对已有内容进行专业级修复,在不破坏整体结构的前提下,实现主体替换、水印去除、字幕抹除等。具体功能包括区域智能修复(替换主体、修改属性、更换背景)、元素智能移除(自动识别并去除水印、字幕、Logo,保持背景自然连贯)和参考引导修复(基于参考图像风格一致性修复)。例如,它能轻松去除视频中的英文字幕,使画面变得干净整洁,展现了其作为“后期小能手”的局部精准改动能力。
-
全维度视频编辑: 除了专业修复,SkyReels-V4还支持全维度的视频编辑,实现创作的自由。与修复追求“极致的真”不同,编辑更侧重“创造的自由”,如将草地变为赛博朋克都市,或改变运镜。模型能凭空增加素材,例如将参考图中的帽子精准添加到视频中C位舞者的头上,并保持帽子颜色和Logo一致。反之,也能精准删除视频中的人物或元素,如移除探险视频中的特定人物,创造出“消失的他们”的惊悚效果。此外,它还支持一键替换视频风格和相机运动控制。
-
高品质音频生成: SkyReels-V4在音频生成方面表现出色,内置多语言语音合成、音效生成、背景音乐适配等能力,支持情感语音和歌词同步演唱。在短剧演示中,模型能根据剧本生成具有玩味、审视、紧张等情绪的台词,并模拟出木质桌面敲击声及环境回音,音质在信号清晰度、音色真实度、动态范围等硬指标上达到专业级水准。
技术解析:双流架构,一体生成
SkyReels-V4旨在解决当前AI视频生成面临的痛点:画面无声音、输入方式单一且编辑不灵活、画质与速度难以兼得。其核心技术在于采用双流MMDiT架构,将音视频从底层焊接到一起。视频和音频两个分支并行运行,共享同一个多模态大语言模型(MLLM)编码器,实现画面和声音在模型内部的联合生成,而非后期拼凑。
团队在每个模块中加入了双向交叉注意力机制,使视频和音频能相互参照调整节奏和匹配细节。配合RoPE(旋转位置编码)频率缩放,即使音视频数量级不同,也能在微秒级时间轴上精准对齐,确保口型、脚步声与画面严丝合缝。
针对输入和编辑的灵活性,SkyReels-V4采用通道拼接+时序拼接的双维玩法,将文字、图片、视频、遮罩、音频参考等多种模态输入统一处理。在通道维度上,通过将带噪视频、条件帧、遮罩叠在一起,将文生视频、图生视频、视频延长、局部编辑等任务统一为“带掩码的修复类”任务,实现局部精准修改。在时序维度上,参考图或视频帧直接拼入生成序列前端,使模型能学习并融合多种参考信息。
为兼顾画质和速度,模型采用“逐级爬坡”的训练策略,从低分辨率到高分辨率,从单模态到音视频联合,分阶段精修。同时,通过视频稀疏注意力(VSA)机制将长序列注意力计算压缩至约1/3,显著降低计算量,提升效率,最终实现1080p、32帧、15秒的电影级视频生成水准。
SkyReels-V4将AI视频生成从单点工具推向了全流程一体化创作,极大地拓展了应用想象空间,如产品宣传、短剧制作、视效大片、教学课件等。昆仑天工团队表示,未来将继续攻克更长视频、更高分辨率(4K/8K)、跨语言创作、复杂场景音视频协同等难题,并持续优化推理成本。
昆仑天工的多模态“死磕”之路:
昆仑天工在多模态领域一直坚持自研,从底层架构实现原生统一,包括统一编码、统一对齐逻辑、统一训练范式。这种“烧时间、烧算力、烧耐心”的路径,使得SkyReels-V4的音视频协同是结构级的,而非外挂式的。其产品发展路径清晰:从文生图/图生图打底,到SkyReels系列视频生成,再到Mureka系列补齐音频,最终在V4阶段实现音视频同步生成、编辑与修复的统一架构,逐步逼近原生多模态一体化。
昆仑天工不仅专注于模型研发,还通过DramaWave和FreeReels等短剧平台将多模态能力落地到创作场景,形成“用户使用-数据反馈-模型迭代”的正向循环。尽管重资产自研和高频迭代带来高风险和算力成本压力,但昆仑天工凭借其“死磕”精神,已成为多模态视频生成领域强有力的竞争者。
SkyReels-V4技术报告:https://arxiv.org/abs/2602.21818