本文介绍LLM推理中KV缓存的优化方法,将每个令牌的存储开销从300KB降至69KB。通过压缩、分块存储和内存管理等技术,显著提升了模型的推理效率和资源利用率,具有重要的技术参考价值。
专题:kv-cache
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 7 篇文章。
社区Hacker News2026/03/29 06:424840
• KV缓存存储优化至69KB/令牌
• 降低模型推理资源消耗
媒体量子位2026/03/26 11:038940
• KV Cache压缩6倍
• 精度无损失
谷歌推出TurboQuant算法,将AI推理中的KV Cache压缩6倍,精度无损。该技术通过极坐标量化和量化JL变换实现,已在开源模型上验证效果,对内存市场带来冲击,但尚未大规模应用。
媒体InfoQ 中文2026/03/25 03:595840
• KV Cache用于存储注意力键值对
• 提升推理效率并减少内存消耗
KV Cache是LLM推理中的关键缓存机制,用于存储注意力键值对以提升生成效率。其核心作用在于减少重复计算,优化内存使用和推理速度。文章详细解析了KV Cache的原理、实现及优化策略,为开发者和研究人员提供了实用的技术参考。
媒体AINews2026/03/11 13:447930
• Nemotron 3 Super参数量达1200亿
• 推理速度比GPT-OSS-120B快2.2倍
NVIDIA发布Nemotron 3 Super,参数量达1200亿,采用混合架构,推理速度提升2.2倍,支持代理式工作负载。该模型在AA Intelligence Index中表现优异,同时推动了代理系统的应用与优化,涵盖多个AI产品和平台。
媒体量子位2026/02/27 16:115840
DeepSeek 与北大、清华联合在 arXiv 发布 DualPath 论文,提出双路径加载框架,将 KV‑Cache 先写入解码引擎再经 RDMA 传至预填充引擎,充分利用闲置的存储网卡带宽。通过流量管理与自适应调度,实验在 660B 模型上实现离线吞吐提升 1.87 倍、在线吞吐提升 1.96 倍,并显著降低首字延迟,为智能体长上下文推理提供了高效的…
媒体量子位2026/02/12 19:246940
华为推出MindScale算法包,优化行业Agent开发流程与推理效率,实现工作流自进化、KV Cache减少5.7倍token,提升模型性能与部署能力。
媒体Ahead of AI2025/06/17 18:556830
• KV缓存提升推理效率
• 代码实现与优化策略
KV缓存是LLM推理中提升效率的关键技术,通过存储键值向量减少重复计算。文章从概念和代码实现角度解析其原理,并展示了在不同模型和硬件上的性能对比。核心亮点包括代码示例、优化方法和实验结果。