大模型资讯聚合站

首页/详情

DeepSeek 发布 DualPath：双路径推理框架利用闲置网卡提升 Agent KV‑Cache 加载效率

量子位2026/02/27 16:11机翻/自动摘要/自动分类

4 阅读

内容评分

技术含量

8/10

营销水分

5/10

摘要

DeepSeek 与北大、清华联合在 arXiv 发布 DualPath 论文，提出双路径加载框架，将 KV‑Cache 先写入解码引擎再经 RDMA 传至预填充引擎，充分利用闲置的存储网卡带宽。通过流量管理与自适应调度，实验在 660B 模型上实现离线吞吐提升 1.87 倍、在线吞吐提升 1.96 倍，并显著降低首字延迟，为智能体长上下文推理提供了高效的 I/O 解决方案。

正文

背景

在（）场景中，长上下文导致 KV‑Cache 的搬运成为推理瓶颈。传统的 Storage‑to‑Prefill 单路径模式把所有缓存读取都压在预填充引擎（PE）的存储网卡（SNIC）上，导致带宽饱和，而解码引擎（DE）的网卡则常常闲置。

DualPath 架构

DeepSeek 与北大、清华合作在 arXiv 上提交的论文《DualPath: Dual‑Path Loading for ‑Level Inference》提出了两条并行加载路径：

路径 A（传统）：存储 → PE，直接把 KV‑Cache 读入预填充引擎。
路径 B（新增）：存储 → DE → PE，先将缓存加载到解码引擎的缓冲区，再通过 GPUDirect RDMA 将数据传输给预填充引擎。

关键组件

推理引擎：每块 GPU 分为 PE 与 DE，职责严格划分。
流量管理器：负责 H2D/D2H 拷贝、引擎间 RDMA 传输以及 SNIC 读写。
中央调度器：实时决定请求走哪条路径，实现全局带宽最大化利用。

存储‑至‑解码路径的技术细节

PE 读取：KV‑Cache 直接进入 PE 缓冲区，计算前即搬入 HBM，计算完成后将完整缓存回传 DE。
DE 读取：缓存先落在 DE 缓冲区，预填充阶段通过 RDMA 将对应层数据推送至 PE HBM，计算结束后仅返回新生成的 KV‑Cache 片段。
解码与持久化：DE 缓冲区在解码完成后执行 H2D 拷贝并释放 CPU 内存，块级（如 64 ）异步持久化，降低显存占用并提升首字延迟（TTFT）。

流量冲突与调度策略

CNIC‑中心流量管理：所有流量走配对的计算网卡（CNIC）并使用 InfiniBand / RoCE 的虚拟层（VL/TC）将推理通信设为最高优先级，预留 99% 带宽给计算，缓存搬运只能在空闲时段“蹭”带宽。
自适应请求调度器：监控每节点磁盘队列长度和数，优先分配 I/O 压力小、计算负载轻的节点，避免单点拥塞。

实验结果

在 660B 生产级模型上进行的离线 Rollout 与在线服务测试显示：

离线吞吐量提升 1.87×
在线服务吞吐量提升 1.96×
首字延迟（TTFT）显著下降，‑to‑ 延迟保持稳定。

作者信息

第一作者 吴永彤 为北京大学金鑫教授的博士生，研究方向为基础设施与推理系统优化，曾在腾讯、华盛顿大学、微软亚洲研究院实习。

参考链接

论文 PDF: https://arxiv.org/pdf/2602.21548
个人主页: https://jokerwyt.github.io/

标签

智能体 LLM RDMA kv缓存大语言模型推理双路径框架