专题：video-generation

昆仑天工的国产视频模型SkyReels-V4在Artificial Analysis榜单中位列全球TOP2。它以音视频一体化的多模态生成与编辑为核心，采用双流MMDiT架构，支持文本、图像、视频、音频等多种输入。模型实现音画同步生成、专业级视频修复及全维度编辑，通过先进技术将AI视频创作推向高画质、高效率的全流程一体化。

视频生成多模态AI 音视频合成昆仑天工 AI编辑能力

BridgeV2W：用“动作剪影”打通视频生成与机器人世界模型，让机器人在行动前“看见”未来

原文

媒体机器之心2026/02/21 21:376830

BridgeV2W 提出“具身掩码”技术，将机器人动作的坐标空间映射到视频生成模型的像素空间，解决了动作-像素对齐、视角鲁棒性和跨具身通用性三大难题。该模型能让机器人在行动前“预演”未来，并能利用海量无标注人类视频进行训练，显著提升了具身世界模型的规模化和泛化能力，为通用具身智能提供了新路径。

具身智能世界模型视频生成机器人技术

海淀AI大模型集群爆发：Seedance 2.0引领视频生成新浪潮，赋能全球视听产业

原文

媒体量子位2026/02/15 19:588620

海淀区正成为全球AI创新高地，以字节跳动Seedance 2.0为代表的AI大模型集群集中爆发。Seedance 2.0凭借多模态输入和音画同步能力，在视频生成领域引发轰动。同时，月之暗面Kimi K2.5、生数科技Vidu Q3、快手可灵AI 3.0及智谱GLM-5等模型也相继发布，展现出多智能体协作、声画一体生成、智能镜头调度及SOTA编程能力。海淀区…

视频生成多模态AI 大语言模型海淀AI AI产业生态

字节跳动2026春节前全链路AI升级：豆包大模型2.0、视频生成Seedance 2.0、图像创作Seedream 5.0 Lite正式发布

原文

媒体机器之心2026/02/14 16:5150

字节跳动在2026年春节前同步发布豆包大模型2.0、视频生成模型Seedance 2.0和图像创作模型Seedream 5.0 Lite，构建了多模态理解、Agent、代码、视频与图像全链路能力。豆包2.0在数学、视觉推理及Agent任务上达业界最优，Seedance 2.0支持混合模态输入生成专业级短视频，Seedream 5.0 Lite加入实时检索提…

多模态模型自主智能体视频生成图像生成代码生成

2026年AI技术动态：Qwen-Image 2.0与Seedance 2.0发布，模型训练与应用趋势解析

原文

媒体Latent Space2026/02/11 13:196720

2026年2月AI动态聚焦Qwen-Image 2.0与Seedance 2.0的发布，涵盖图像生成、视频处理、本地部署LLM及MoE训练技术。文章分析了模型性能、多语言能力及实际应用潜力，为AI技术发展提供了全面视角。

Qwen-Image 2.0 Seedance 2.0 本地大模型混合专家训练视频生成

在 Jetson Thor 上运行 LTX-2 19B：具备完整内存生命周期管理的开源流水线

原文

社区Reddit r/LocalLLaMA2026/02/09 21:2230

本文介绍了一个在 NVIDIA Jetson AGX Thor 上运行 LTX-2 19B 视频生成模型的开源流水线。该流水线实现了 1080p 视频生成，并重点解决了 Jetson AGX Thor 128GB 统一内存带来的内存管理挑战，包括避免无效的 CPU 卸载、手动内存清理、页面缓存问题以及 VAE 解码时的 `torch.no_grad()` …

LTX-2 Jetson Thor 视频生成开源项目内存管理

xAI Grok Imagine API：视频生成新标杆，低延迟与高性价比并存

原文

媒体AINews2026/01/29 13:447640

本文介绍了多个AI视频生成和3D生成技术，涵盖xAI Grok Imagine API、LingBot-World开源项目及fal的Hunyuan 3D 3.1 Pro/Rapid。xAI Grok Imagine以低延迟、原生音频支持和高性价比著称，LingBot-World则强调实时交互与因果一致性，而Hunyuan 3D 3.1 Pro/Rapid拓…

视频生成实时AI 模型即服务开源项目音频支持

美团开源视频生成模型 LongCat-Video-Avatar 达成 SOTA 拟真水平

原文

官方美团技术团队2025/12/23 08:007620

美团发布开源视频生成模型 LongCat-Video-Avatar，实现 SOTA 拟真效果。该模型支持文本和图像输入，生成高质量视频，适用于多种应用场景。开源特性鼓励技术共享与创新。

视频生成开源项目 SOTA性能 AI模型深度学习

Sora 2：视频生成技术迈入更真实的新阶段

原文

媒体AI Explained (YouTube)2025/10/01 23:008740

Sora 2 是 OpenAI 推出的视频生成模型升级版，显著提升视频逼真度与生成质量。通过优化算法和引入物理模拟技术，支持更长视频和复杂场景交互，为内容创作带来新可能。

视频生成扩散模型 AI创意 OpenAI 深度学习