哈密尔顿-雅可比-贝尔曼方程是强化学习的核心工具,用于求解最优策略。扩散模型作为生成模型的重要方向,与HJB方程结合可能带来新应用。文章简要介绍了两者的基本概念及其潜在关联,具有一定的技术参考价值。
专题:diffusion-models
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 9 篇文章。
TADA是一种基于文本-声学同步的语音生成技术,利用扩散模型提升语音合成的效率与质量。其核心亮点在于文本与声学特征的对齐机制,适用于多语言场景,具有较高的实用价值。
本文是PRX系列第三部分,深入探讨了在24小时内从零开始训练一个文本到图像生成模型的实战路径。文章详细介绍了如何通过优化策略,如利用预训练组件、高效数据处理、混合精度训练以及Hugging Face Accelerate等工具,大幅缩短模型训练周期。它不仅提供了关键的技术指导和代码示例,还强调了在追求速度的同时,如何平衡模型性能与资源消耗。对于希望快速掌握…
Max Welling教授在视频中探讨了CuspAI如何利用AI加速材料发现,提出“实验即计算”和“物理处理单元”概念。CuspAI平台整合生成模型、数字孪生与自动化实验循环,旨在赋能化学家。视频深入分析了等变神经网络、扩散模型与随机热力学,强调材料是AI和能源转型的关键瓶颈。CuspAI获1亿美元A轮融资,汇聚顶尖顾问,致力于AI for Science。
CineTrans 是一种基于掩码机制的多镜头视频生成模型,通过块对角掩码架构实现时间级可控转场。它结合了扩散模型与注意力机制,引入了高质量的 Cine250K 数据集,提升了多镜头视频生成的自然性和语义连贯性。该模型在 ICLR 2026 接收,具备较强的实验支撑和实际应用价值。
本文介绍了一个为训练大型扩散模型而构建的定制化 AI 硬件平台。该平台集成了 6 块 RTX 3090 GPU,总计 144GB VRAM,并采用了 Epyc CPU 和八通道 DDR4 内存。通过优化驱动和启用 GPU P2P 功能,实现了高效的 GPU 间通信。该平台专为从零开始训练高达 100 亿参数的扩散模型而设计,展示了在 AI 模型训练领域对高…
本期LWiAI播客聚焦GPT-5.1、ERNIE 5.0等大模型更新,以及AI在自动驾驶、内容创作、远程工作自动化等领域的应用进展。特别关注AI生成音乐和声音的市场趋势,并探讨了AI对劳动力结构的影响。内容涵盖技术发布、产品落地与行业动态,信息量大且具有参考价值。
Sora 2 是 OpenAI 推出的视频生成模型升级版,显著提升视频逼真度与生成质量。通过优化算法和引入物理模拟技术,支持更长视频和复杂场景交互,为内容创作带来新可能。
本文整理了2025年上半年与LLM相关的研究论文,按主题分类,重点聚焦推理模型、强化学习和多模态模型等方向。内容涵盖训练策略、推理优化方法及数据集研究,具有较高的技术参考价值,并附带夏季学习资源。