专题:kv-cache

按该标签聚合的大模型资讯列表(自动分类与标签提取)。7 篇文章。

媒体InfoQ 中文2026/03/25 03:595840
KV Cache用于存储注意力键值对
提升推理效率并减少内存消耗

KV Cache是LLM推理中的关键缓存机制,用于存储注意力键值对以提升生成效率。其核心作用在于减少重复计算,优化内存使用和推理速度。文章详细解析了KV Cache的原理、实现及优化策略,为开发者和研究人员提供了实用的技术参考。

媒体AINews2026/03/11 13:447930
Nemotron 3 Super参数量达1200亿
推理速度比GPT-OSS-120B快2.2倍

NVIDIA发布Nemotron 3 Super,参数量达1200亿,采用混合架构,推理速度提升2.2倍,支持代理式工作负载。该模型在AA Intelligence Index中表现优异,同时推动了代理系统的应用与优化,涵盖多个AI产品和平台。

媒体量子位2026/02/27 16:115840

DeepSeek 与北大、清华联合在 arXiv 发布 DualPath 论文,提出双路径加载框架,将 KV‑Cache 先写入解码引擎再经 RDMA 传至预填充引擎,充分利用闲置的存储网卡带宽。通过流量管理与自适应调度,实验在 660B 模型上实现离线吞吐提升 1.87 倍、在线吞吐提升 1.96 倍,并显著降低首字延迟,为智能体长上下文推理提供了高效的…