国产视频模型SkyReels-V4跻身全球榜TOP2：实现音视频一体化多模态生成与编辑

全球视频榜单迎来新突破，国产模型SkyReels-V4成功杀入前2。根据权威第三方机构Artificial Analysis的最新排行榜，昆仑天工的SkyReels-V4在文转视频（含音频）全球榜中位列第2，超越了Veo 3.1和Sora 2。在历史总榜中，SkyReels-V4也冲至第4位，稳居全球第一梯队。Artificial Analysis以其独立测试闻名，确保了这些成绩的含金量。

SkyReels-V4的亮点不仅在于纯文生视频，更在于其强大的多模态组合生成能力。它支持文本、图像、视频片段、掩码、音频参考等多种输入混合，实现“图像A的主体”+“视频B的动作”+“音频C的背景音”等一体化生成。在SkyReels-V3开源仅一个月后，V4便携全球TOP2的成绩登场，展现了昆仑天工快速的迭代节奏和扎实的技术实力。

核心能力展示：

多模态精准控制： SkyReels-V4是全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务的视频基础模型。例如，通过指令“把@video_1中左侧身穿白上衣配牛仔裤跳舞的女性替换为@image_1里的狗，并将@video_1中右侧身穿全套西装跳舞的男性替换为@image_2 里的猫，确保动作保持一致”，模型能精准提取图像主体的毛色、身形，并将其无缝迁移到视频人物上，同时保留原视频的舞台、观众、音乐和动作，甚至实现动作与音乐的精准卡点。这体现了模型对多模态参考的精准控制，包括基于参考图像的风格迁移与主体保留、音频驱动的动作生成以及多参考融合创作。
专业级视频修复： SkyReels-V4支持对已有内容进行专业级修复，在不破坏整体结构的前提下，实现主体替换、水印去除、字幕抹除等。具体功能包括区域智能修复（替换主体、修改属性、更换背景）、元素智能移除（自动识别并去除水印、字幕、Logo，保持背景自然连贯）和参考引导修复（基于参考图像风格一致性修复）。例如，它能轻松去除视频中的英文字幕，使画面变得干净整洁，展现了其作为“后期小能手”的局部精准改动能力。
全维度视频编辑： 除了专业修复，SkyReels-V4还支持全维度的视频编辑，实现创作的自由。与修复追求“极致的真”不同，编辑更侧重“创造的自由”，如将草地变为赛博朋克都市，或改变运镜。模型能凭空增加素材，例如将参考图中的帽子精准添加到视频中C位舞者的头上，并保持帽子颜色和Logo一致。反之，也能精准删除视频中的人物或元素，如移除探险视频中的特定人物，创造出“消失的他们”的惊悚效果。此外，它还支持一键替换视频风格和相机运动控制。
高品质音频生成： SkyReels-V4在音频生成方面表现出色，内置多语言语音合成、音效生成、背景音乐适配等能力，支持情感语音和歌词同步演唱。在短剧演示中，模型能根据剧本生成具有玩味、审视、紧张等情绪的台词，并模拟出木质桌面敲击声及环境回音，音质在信号清晰度、音色真实度、动态范围等硬指标上达到专业级水准。

技术解析：双流架构，一体生成

SkyReels-V4旨在解决当前AI视频生成面临的痛点：画面无声音、输入方式单一且编辑不灵活、画质与速度难以兼得。其核心技术在于采用双流MMDiT架构，将音视频从底层焊接到一起。视频和音频两个分支并行运行，共享同一个多模态大语言模型（MLLM）编码器，实现画面和声音在模型内部的联合生成，而非后期拼凑。

团队在每个模块中加入了双向交叉注意力机制，使视频和音频能相互参照调整节奏和匹配细节。配合RoPE（旋转位置编码）频率缩放，即使音视频数量级不同，也能在微秒级时间轴上精准对齐，确保口型、脚步声与画面严丝合缝。

针对输入和编辑的灵活性，SkyReels-V4采用通道拼接+时序拼接的双维玩法，将文字、图片、视频、遮罩、音频参考等多种模态输入统一处理。在通道维度上，通过将带噪视频、条件帧、遮罩叠在一起，将文生视频、图生视频、视频延长、局部编辑等任务统一为“带掩码的修复类”任务，实现局部精准修改。在时序维度上，参考图或视频帧直接拼入生成序列前端，使模型能学习并融合多种参考信息。

为兼顾画质和速度，模型采用“逐级爬坡”的训练策略，从低分辨率到高分辨率，从单模态到音视频联合，分阶段精修。同时，通过视频稀疏注意力（VSA）机制将长序列注意力计算压缩至约1/3，显著降低计算量，提升效率，最终实现1080p、32帧、15秒的电影级视频生成水准。

SkyReels-V4将AI视频生成从单点工具推向了全流程一体化创作，极大地拓展了应用想象空间，如产品宣传、短剧制作、视效大片、教学课件等。昆仑天工团队表示，未来将继续攻克更长视频、更高分辨率（4K/8K）、跨语言创作、复杂场景音视频协同等难题，并持续优化推理成本。

昆仑天工的多模态“死磕”之路：

昆仑天工在多模态领域一直坚持自研，从底层架构实现原生统一，包括统一编码、统一对齐逻辑、统一训练范式。这种“烧时间、烧算力、烧耐心”的路径，使得SkyReels-V4的音视频协同是结构级的，而非外挂式的。其产品发展路径清晰：从文生图/图生图打底，到SkyReels系列视频生成，再到Mureka系列补齐音频，最终在V4阶段实现音视频同步生成、编辑与修复的统一架构，逐步逼近原生多模态一体化。

昆仑天工不仅专注于模型研发，还通过DramaWave和FreeReels等短剧平台将多模态能力落地到创作场景，形成“用户使用-数据反馈-模型迭代”的正向循环。尽管重资产自研和高频迭代带来高风险和算力成本压力，但昆仑天工凭借其“死磕”精神，已成为多模态视频生成领域强有力的竞争者。

SkyReels-V4技术报告：https://arxiv.org/abs/2602.21818

国产视频模型SkyReels-V4跻身全球榜TOP2：实现音视频一体化多模态生成与编辑

内容评分

摘要

正文

标签