专题:attention-residuals

按该标签聚合的大模型资讯列表(自动分类与标签提取)。4 篇文章。

媒体Last Week in AI2026/04/01 16:077830
OpenAI发布GPT-5.4 mini/nano,支持40万令牌上下文
Mistral推出Small 4多模态模型及Forge企业工具

本期播客系统梳理了AI领域的四大核心进展:1)OpenAI发布支持40万令牌上下文的GPT-5.4系列,提升复杂任务效率;2)Mistral推出Small 4多模态模型及Forge企业工具,强化AI「操作系统」竞争;3)NVIDIA与Meta在硬件和AI代理技术取得突破,字节获高端芯片供应;4)安全合规成为焦点,各方加强模型防护研究。内容兼具技术深度与商业…

媒体量子位2026/03/17 14:518910
注意力机制应用于深度维度
训练效率提升25%

Kimi团队提出Attention Residuals技术,将注意力机制应用于深度维度,解决传统残差连接信息累加不灵活的问题。通过分块压缩和选择性信息提取,提升了训练效率和推理性能,且技术可直接替换残差连接。17岁高中生陈广宇作为共同一作,展现了年轻人才在AI领域的突破。

媒体AINews2026/03/16 13:447830
Moonshot提出注意力残差机制
Codex用户增长与功能扩展

Moonshot提出注意力残差机制,提升计算效率并降低延迟;Codex用户增长显著,新增子代理功能并优化知识转移;LangChain开源Deep Agents框架,支持复杂编码代理流程。三者均涉及AI模型架构、训练效率及开发工具的创新。