阿里千问APP推出Wan2.7模型,实现视频生成、图像创作、动作模仿等多模态能力,支持3K tokens文本输入和精准色彩控制,通过实际案例展示其在内容创作上的强大表现,强调技术普惠与商业化落地。
专题:video-generation
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 16 篇文章。
火山引擎披露豆包大模型日均 120 万亿 Token 消耗,折算成本达 30‑50 亿元人民币,显示国内 AI 需求爆发。中国 Token 使用量已突破 140 万亿,全球占比 36%,智能体和视频生成是主要驱动。企业需关注模型质量、安全和 Skills,云厂商正因 Token 计费上涨价格。
Sora作为视频生成AI产品因技术与市场因素关停。文章分析其未能成为‘视频版ChatGPT’的原因,包括生成质量、计算成本、用户需求与商业模式等。核心亮点在于对AI视频生成技术现状的深入探讨。
LibTV是LiblibAI推出的AI视频创作工具,支持人类与Agent协同创作。通过无限画布、节点工作流和多种专业功能,实现从剧本到成片的一站式创作。AI Agent可一键生成视频,无需人工干预。该产品集成了顶级图像、视频和音频模型,提供高效、灵活的创作体验。
本文介绍AWS推出的VRAG方案,通过结合图像检索与提示生成,实现自动化AI视频制作。适用于教育、营销和个性化内容,利用Bedrock、Nova Reel和OpenSearch等技术构建可扩展的视频生成流程。
V-RAG是一种结合检索增强与视频生成的创新技术,通过图像数据库提升视频生成的准确性与可控性,适用于教育、营销等场景,具备高效、可扩展和可追溯等核心优势。
Bark.com与AWS合作构建视频生成解决方案,通过AI技术将内容生产时间从数周缩短至数小时,实现语义和视觉一致性,支持多客户细分的个性化广告生成。
昆仑天工的国产视频模型SkyReels-V4在Artificial Analysis榜单中位列全球TOP2。它以音视频一体化的多模态生成与编辑为核心,采用双流MMDiT架构,支持文本、图像、视频、音频等多种输入。模型实现音画同步生成、专业级视频修复及全维度编辑,通过先进技术将AI视频创作推向高画质、高效率的全流程一体化。
BridgeV2W 提出“具身掩码”技术,将机器人动作的坐标空间映射到视频生成模型的像素空间,解决了动作-像素对齐、视角鲁棒性和跨具身通用性三大难题。该模型能让机器人在行动前“预演”未来,并能利用海量无标注人类视频进行训练,显著提升了具身世界模型的规模化和泛化能力,为通用具身智能提供了新路径。
海淀区正成为全球AI创新高地,以字节跳动Seedance 2.0为代表的AI大模型集群集中爆发。Seedance 2.0凭借多模态输入和音画同步能力,在视频生成领域引发轰动。同时,月之暗面Kimi K2.5、生数科技Vidu Q3、快手可灵AI 3.0及智谱GLM-5等模型也相继发布,展现出多智能体协作、声画一体生成、智能镜头调度及SOTA编程能力。海淀区…
字节跳动在2026年春节前同步发布豆包大模型2.0、视频生成模型Seedance 2.0和图像创作模型Seedream 5.0 Lite,构建了多模态理解、Agent、代码、视频与图像全链路能力。豆包2.0在数学、视觉推理及Agent任务上达业界最优,Seedance 2.0支持混合模态输入生成专业级短视频,Seedream 5.0 Lite加入实时检索提…
2026年2月AI动态聚焦Qwen-Image 2.0与Seedance 2.0的发布,涵盖图像生成、视频处理、本地部署LLM及MoE训练技术。文章分析了模型性能、多语言能力及实际应用潜力,为AI技术发展提供了全面视角。
本文介绍了一个在 NVIDIA Jetson AGX Thor 上运行 LTX-2 19B 视频生成模型的开源流水线。该流水线实现了 1080p 视频生成,并重点解决了 Jetson AGX Thor 128GB 统一内存带来的内存管理挑战,包括避免无效的 CPU 卸载、手动内存清理、页面缓存问题以及 VAE 解码时的 `torch.no_grad()` …
本文介绍了多个AI视频生成和3D生成技术,涵盖xAI Grok Imagine API、LingBot-World开源项目及fal的Hunyuan 3D 3.1 Pro/Rapid。xAI Grok Imagine以低延迟、原生音频支持和高性价比著称,LingBot-World则强调实时交互与因果一致性,而Hunyuan 3D 3.1 Pro/Rapid拓…
美团发布开源视频生成模型 LongCat-Video-Avatar,实现 SOTA 拟真效果。该模型支持文本和图像输入,生成高质量视频,适用于多种应用场景。开源特性鼓励技术共享与创新。
Sora 2 是 OpenAI 推出的视频生成模型升级版,显著提升视频逼真度与生成质量。通过优化算法和引入物理模拟技术,支持更长视频和复杂场景交互,为内容创作带来新可能。