大模型资讯聚合站

专题：kv-cache

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 7 篇文章。

LLM架构优化：KV缓存存储效率提升至69KB/令牌

社区Hacker News2026/03/29 06:424840

• KV缓存存储优化至69KB/令牌

• 降低模型推理资源消耗

本文介绍LLM推理中KV缓存的优化方法，将每个令牌的存储开销从300KB降至69KB。通过压缩、分块存储和内存管理等技术，显著提升了模型的推理效率和资源利用率，具有重要的技术参考价值。

kv缓存模型优化注意力机制优化内存管理大语言模型

谷歌TurboQuant压缩算法：KV Cache压缩6倍，精度无损

媒体量子位2026/03/26 11:038940

• KV Cache压缩6倍

• 精度无损失

谷歌推出TurboQuant算法，将AI推理中的KV Cache压缩6倍，精度无损。该技术通过极坐标量化和量化JL变换实现，已在开源模型上验证效果，对内存市场带来冲击，但尚未大规模应用。

kv缓存量化优化 ICLR 2026会议 TurboQuant AI效率优化

KV Cache技术：大型语言模型推理优化的核心机制

媒体InfoQ 中文2026/03/25 03:595840

• KV Cache用于存储注意力键值对

• 提升推理效率并减少内存消耗

KV Cache是LLM推理中的关键缓存机制，用于存储注意力键值对以提升生成效率。其核心作用在于减少重复计算，优化内存使用和推理速度。文章详细解析了KV Cache的原理、实现及优化策略，为开发者和研究人员提供了实用的技术参考。

kv缓存注意力机制优化 LLM优化 Transformer架构推理性能

NVIDIA发布Nemotron 3 Super：1200亿参数模型与代理系统创新

媒体AINews2026/03/11 13:447930

• Nemotron 3 Super参数量达1200亿

• 推理速度比GPT-OSS-120B快2.2倍

NVIDIA发布Nemotron 3 Super，参数量达1200亿，采用混合架构，推理速度提升2.2倍，支持代理式工作负载。该模型在AA Intelligence Index中表现优异，同时推动了代理系统的应用与优化，涵盖多个AI产品和平台。

Nemotron模型大语言模型开源环境 AI技术社区模型优化

DeepSeek 发布 DualPath：双路径推理框架利用闲置网卡提升 Agent KV‑Cache 加载效率

媒体量子位2026/02/27 16:115840

DeepSeek 与北大、清华联合在 arXiv 发布 DualPath 论文，提出双路径加载框架，将 KV‑Cache 先写入解码引擎再经 RDMA 传至预填充引擎，充分利用闲置的存储网卡带宽。通过流量管理与自适应调度，实验在 660B 模型上实现离线吞吐提升 1.87 倍、在线吞吐提升 1.96 倍，并显著降低首字延迟，为智能体长上下文推理提供了高效的…

双路径框架 kv缓存 RDMA 大语言模型推理智能体 LLM

华为MindScale：行业Agent算法架构升级，KV Cache优化达5.7倍

媒体量子位2026/02/12 19:246940

华为推出MindScale算法包，优化行业Agent开发流程与推理效率，实现工作流自进化、KV Cache减少5.7倍token，提升模型性能与部署能力。

自主智能体 kv缓存提示优化检索增强生成昇腾硬件

从零开始实现大型语言模型中的KV缓存技术

媒体Ahead of AI2025/06/17 18:556830

• KV缓存提升推理效率

• 代码实现与优化策略

KV缓存是LLM推理中提升效率的关键技术，通过存储键值向量减少重复计算。文章从概念和代码实现角度解析其原理，并展示了在不同模型和硬件上的性能对比。核心亮点包括代码示例、优化方法和实验结果。

大语言模型推理优化 Python kv缓存注意力机制优化