DeepSeek 发布 DualPath:双路径推理框架利用闲置网卡提升 Agent KV‑Cache 加载效率原文媒体量子位2026/02/27 16:115840DeepSeek 与北大、清华联合在 arXiv 发布 DualPath 论文,提出双路径加载框架,将 KV‑Cache 先写入解码引擎再经 RDMA 传至预填充引擎,充分利用闲置的存储网卡带宽。通过流量管理与自适应调度,实验在 660B 模型上实现离线吞吐提升 1.87 倍、在线吞吐提升 1.96 倍,并显著降低首字延迟,为智能体长上下文推理提供了高效的…双路径框架kv缓存RDMA大语言模型推理智能体 LLM