专题:video-generation

按该标签聚合的大模型资讯列表(自动分类与标签提取)。16 篇文章。

媒体量子位2026/04/03 20:548710
Wan2.7实现多模态内容生成
支持3K tokens文本与精准调色

阿里千问APP推出Wan2.7模型,实现视频生成、图像创作、动作模仿等多模态能力,支持3K tokens文本输入和精准色彩控制,通过实际案例展示其在内容创作上的强大表现,强调技术普惠与商业化落地。

媒体爱范儿2026/04/02 17:596520
豆包大模型日均 120 万亿 Token,成本 30‑50 亿元
AI 视频创作与智能体推动 Token 使用激增

火山引擎披露豆包大模型日均 120 万亿 Token 消耗,折算成本达 30‑50 亿元人民币,显示国内 AI 需求爆发。中国 Token 使用量已突破 140 万亿,全球占比 36%,智能体和视频生成是主要驱动。企业需关注模型质量、安全和 Skills,云厂商正因 Token 计费上涨价格。

媒体量子位2026/03/20 17:498990
人类与Agent协同创作
节点工作流+无限画布

LibTV是LiblibAI推出的AI视频创作工具,支持人类与Agent协同创作。通过无限画布、节点工作流和多种专业功能,实现从剧本到成片的一站式创作。AI Agent可一键生成视频,无需人工干预。该产品集成了顶级图像、视频和音频模型,提供高效、灵活的创作体验。

媒体AWS Machine Learning Blog2026/03/20 00:457830
VRAG结合图像检索与视频生成
支持批量处理和结构化提示

本文介绍AWS推出的VRAG方案,通过结合图像检索与提示生成,实现自动化AI视频制作。适用于教育、营销和个性化内容,利用Bedrock、Nova Reel和OpenSearch等技术构建可扩展的视频生成流程。

媒体量子位2026/02/27 16:046820

昆仑天工的国产视频模型SkyReels-V4在Artificial Analysis榜单中位列全球TOP2。它以音视频一体化的多模态生成与编辑为核心,采用双流MMDiT架构,支持文本、图像、视频、音频等多种输入。模型实现音画同步生成、专业级视频修复及全维度编辑,通过先进技术将AI视频创作推向高画质、高效率的全流程一体化。

媒体机器之心2026/02/21 21:376830

BridgeV2W 提出“具身掩码”技术,将机器人动作的坐标空间映射到视频生成模型的像素空间,解决了动作-像素对齐、视角鲁棒性和跨具身通用性三大难题。该模型能让机器人在行动前“预演”未来,并能利用海量无标注人类视频进行训练,显著提升了具身世界模型的规模化和泛化能力,为通用具身智能提供了新路径。

媒体量子位2026/02/15 19:588620

海淀区正成为全球AI创新高地,以字节跳动Seedance 2.0为代表的AI大模型集群集中爆发。Seedance 2.0凭借多模态输入和音画同步能力,在视频生成领域引发轰动。同时,月之暗面Kimi K2.5、生数科技Vidu Q3、快手可灵AI 3.0及智谱GLM-5等模型也相继发布,展现出多智能体协作、声画一体生成、智能镜头调度及SOTA编程能力。海淀区…

媒体机器之心2026/02/14 16:5150

字节跳动在2026年春节前同步发布豆包大模型2.0、视频生成模型Seedance 2.0和图像创作模型Seedream 5.0 Lite,构建了多模态理解、Agent、代码、视频与图像全链路能力。豆包2.0在数学、视觉推理及Agent任务上达业界最优,Seedance 2.0支持混合模态输入生成专业级短视频,Seedream 5.0 Lite加入实时检索提…

社区Reddit r/LocalLLaMA2026/02/09 21:2230

本文介绍了一个在 NVIDIA Jetson AGX Thor 上运行 LTX-2 19B 视频生成模型的开源流水线。该流水线实现了 1080p 视频生成,并重点解决了 Jetson AGX Thor 128GB 统一内存带来的内存管理挑战,包括避免无效的 CPU 卸载、手动内存清理、页面缓存问题以及 VAE 解码时的 `torch.no_grad()` …