专题：deep-learning

本文介绍了一个为训练大型扩散模型而构建的定制化 AI 硬件平台。该平台集成了 6 块 RTX 3090 GPU，总计 144GB VRAM，并采用了 Epyc CPU 和八通道 DDR4 内存。通过优化驱动和启用 GPU P2P 功能，实现了高效的 GPU 间通信。该平台专为从零开始训练高达 100 亿参数的扩散模型而设计，展示了在 AI 模型训练领域对高…

AI计算硬件扩散模型 GPU训练深度学习 TinyGrad框架

深度代理与虚拟文件系统：AI代理可扩展性的关键技术

原文

官方LangChain YouTube2026/02/05 00:054750

本文提出深度代理与虚拟文件系统结合的AI代理扩展方案，强调其在数据处理与协作中的优势，同时指出实际应用中的挑战。核心亮点在于技术整合与系统性能提升。

AI代理深度学习虚拟文件系统可扩展性协作型AI

UniRG：多模态强化学习在医学影像报告生成中的突破性应用

原文

官方Microsoft Research Blog2026/01/28 01:007930

• UniRG-CXR 采用强化学习优化临床指标

• 模型在跨机构和子群体中表现稳健

UniRG 是一种基于多模态强化学习的医学影像报告生成框架，通过结合监督微调与强化学习，提升了模型在临床环境中的泛化能力和可靠性。UniRG-CXR 在多个数据集和指标上表现领先，尤其在跨机构和纵向报告生成方面具有显著优势，为医疗AI的实用化提供了新方向。

临床报告生成深度学习医疗人工智能多模态模型大语言模型

美团开源视频生成模型 LongCat-Video-Avatar 达成 SOTA 拟真水平

原文

官方美团技术团队2025/12/23 08:007620

美团发布开源视频生成模型 LongCat-Video-Avatar，实现 SOTA 拟真效果。该模型支持文本和图像输入，生成高质量视频，适用于多种应用场景。开源特性鼓励技术共享与创新。

视频生成开源项目 SOTA性能 AI模型深度学习

Transformer模型深度解析：注意力机制如何重塑AI

原文

媒体ByteByteGo YouTube2025/12/12 00:304840

本文深入解析Transformer模型，重点介绍注意力机制，分析其在NLP和CV中的应用及相较于RNN/CNN的优势，适合开发者和研究者学习。

注意力机制优化 Transformer 架构自然语言处理深度学习序列建模

谷歌发布Gemini 3：AI基础模型新突破与应用升级

原文

媒体Last Week in AI2025/11/26 03:218630

谷歌发布Gemini 3，作为当前最强大的基础模型之一，其在编程和多模态任务中表现突出，同时引入Deepthink研究功能，推动AI搜索和应用升级。市场反应热烈，Alphabet股价与估值随之上涨。

Gemini 模型 AI模型深度学习基准测试 AI搜索

强化学习效率远低于预期：信息密度与方差的双重挑战

原文

官方Dwarkesh Patel2025/11/18 00:544740

本文分析了强化学习在信息效率上的不足，指出其信息密度低和训练初期方差大的问题，强调RL与监督学习在获取有效信息上的本质差异，并提出提升效率的潜在方向。

强化学习信息效率训练方差深度学习 AI研究

Sora 2：视频生成技术迈入更真实的新阶段

原文

媒体AI Explained (YouTube)2025/10/01 23:008740

Sora 2 是 OpenAI 推出的视频生成模型升级版，显著提升视频逼真度与生成质量。通过优化算法和引入物理模拟技术，支持更长视频和复杂场景交互，为内容创作带来新可能。

视频生成扩散模型 AI创意 OpenAI 深度学习

AI时代数学新角色：从理论基石到高阶设计与现象解释

原文

媒体The Gradient2024/11/17 00:462840

文章探讨了数学在机器学习中不断演变的角色。过去，数学主要提供理论保证，如今其重心转向事后解释大规模模型现象、指导高层次架构设计（如匹配数据对称性）。随着实证进展超越理论，纯粹数学如拓扑学、代数和几何学正与传统应用数学融合，共同为理解和引导AI发展提供新视角。这表明数学并非失去相关性，而是以更广阔、更深入的方式持续发挥关键作用。

机器学习理论数学模型可解释性架构设计深度学习