专题:kimi-linear

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

媒体量子位2026/03/17 14:518910
注意力机制应用于深度维度
训练效率提升25%

Kimi团队提出Attention Residuals技术,将注意力机制应用于深度维度,解决传统残差连接信息累加不灵活的问题。通过分块压缩和选择性信息提取,提升了训练效率和推理性能,且技术可直接替换残差连接。17岁高中生陈广宇作为共同一作,展现了年轻人才在AI领域的突破。