DeepSeek 发布 DualPath:双路径推理框架利用闲置网卡提升 Agent KV‑Cache 加载效率
量子位2026/02/27 16:11机翻/自动摘要/自动分类
4 阅读
内容评分
技术含量
8/10
营销水分
5/10
摘要
DeepSeek 与北大、清华联合在 arXiv 发布 DualPath 论文,提出双路径加载框架,将 KV‑Cache 先写入解码引擎再经 RDMA 传至预填充引擎,充分利用闲置的存储网卡带宽。通过流量管理与自适应调度,实验在 660B 模型上实现离线吞吐提升 1.87 倍、在线吞吐提升 1.96 倍,并显著降低首字延迟,为智能体长上下文推理提供了高效的 I/O 解决方案。
正文
背景
在()场景中,长上下文导致 KV‑Cache 的搬运成为推理瓶颈。传统的 Storage‑to‑Prefill 单路径模式把所有缓存读取都压在预填充引擎(PE)的存储网卡(SNIC)上,导致带宽饱和,而解码引擎(DE)的网卡则常常闲置。
DualPath 架构
DeepSeek 与北大、清华合作在 arXiv 上提交的论文《DualPath: Dual‑Path Loading for ‑Level Inference》提出了两条并行加载路径:
- 路径 A(传统):存储 → PE,直接把 KV‑Cache 读入预填充引擎。
- 路径 B(新增):存储 → DE → PE,先将缓存加载到解码引擎的缓冲区,再通过 GPUDirect RDMA 将数据传输给预填充引擎。
关键组件
- 推理引擎:每块 GPU 分为 PE 与 DE,职责严格划分。
- 流量管理器:负责 H2D/D2H 拷贝、引擎间 RDMA 传输以及 SNIC 读写。
- 中央调度器:实时决定请求走哪条路径,实现全局带宽最大化利用。
存储‑至‑解码路径的技术细节
- PE 读取:KV‑Cache 直接进入 PE 缓冲区,计算前即搬入 HBM,计算完成后将完整缓存回传 DE。
- DE 读取:缓存先落在 DE 缓冲区,预填充阶段通过 RDMA 将对应层数据推送至 PE HBM,计算结束后仅返回新生成的 KV‑Cache 片段。
- 解码与持久化:DE 缓冲区在解码完成后执行 H2D 拷贝并释放 CPU 内存,块级(如 64 )异步持久化,降低显存占用并提升首字延迟(TTFT)。
流量冲突与调度策略
- CNIC‑中心流量管理:所有流量走配对的计算网卡(CNIC)并使用 InfiniBand / RoCE 的虚拟层(VL/TC)将推理通信设为最高优先级,预留 99% 带宽给计算,缓存搬运只能在空闲时段“蹭”带宽。
- 自适应请求调度器:监控每节点磁盘队列长度和 数,优先分配 I/O 压力小、计算负载轻的节点,避免单点拥塞。
实验结果
在 660B 生产级模型上进行的离线 Rollout 与在线服务测试显示:
- 离线吞吐量提升 1.87×
- 在线服务吞吐量提升 1.96×
- 首字延迟(TTFT)显著下降,‑to‑ 延迟保持稳定。
作者信息
第一作者 吴永彤 为北京大学金鑫教授的博士生,研究方向为基础设施与推理系统优化,曾在腾讯、华盛顿大学、微软亚洲研究院实习。
参考链接
- 论文 PDF: https://arxiv.org/pdf/2602.21548
- 个人主页: https://jokerwyt.github.io/