首页/详情

DeepSeek 发布 DualPath:双路径推理框架利用闲置网卡提升 Agent KV‑Cache 加载效率

量子位2026/02/27 16:11机翻/自动摘要/自动分类
4 阅读

内容评分

技术含量
8/10
营销水分
5/10

摘要

DeepSeek 与北大、清华联合在 arXiv 发布 DualPath 论文,提出双路径加载框架,将 KV‑Cache 先写入解码引擎再经 RDMA 传至预填充引擎,充分利用闲置的存储网卡带宽。通过流量管理与自适应调度,实验在 660B 模型上实现离线吞吐提升 1.87 倍、在线吞吐提升 1.96 倍,并显著降低首字延迟,为智能体长上下文推理提供了高效的 I/O 解决方案。

正文

背景

)场景中,长上下文导致 KV‑Cache 的搬运成为推理瓶颈。传统的 Storage‑to‑Prefill 单路径模式把所有缓存读取都压在预填充引擎(PE)的存储网卡(SNIC)上,导致带宽饱和,而解码引擎(DE)的网卡则常常闲置。

DualPath 架构

DeepSeek 与北大、清华合作在 arXiv 上提交的论文《DualPath: Dual‑Path Loading for ‑Level Inference》提出了两条并行加载路径:

  1. 路径 A(传统):存储 → PE,直接把 KV‑Cache 读入预填充引擎。
  2. 路径 B(新增):存储 → DE → PE,先将缓存加载到解码引擎的缓冲区,再通过 GPUDirect RDMA 将数据传输给预填充引擎。

关键组件

  • 推理引擎:每块 GPU 分为 PE 与 DE,职责严格划分。
  • 流量管理器:负责 H2D/D2H 拷贝、引擎间 RDMA 传输以及 SNIC 读写。
  • 中央调度器:实时决定请求走哪条路径,实现全局带宽最大化利用。

存储‑至‑解码路径的技术细节

  • PE 读取:KV‑Cache 直接进入 PE 缓冲区,计算前即搬入 HBM,计算完成后将完整缓存回传 DE。
  • DE 读取:缓存先落在 DE 缓冲区,预填充阶段通过 RDMA 将对应层数据推送至 PE HBM,计算结束后仅返回新生成的 KV‑Cache 片段。
  • 解码与持久化:DE 缓冲区在解码完成后执行 H2D 拷贝并释放 CPU 内存,块级(如 64 )异步持久化,降低显存占用并提升首字延迟(TTFT)。

流量冲突与调度策略

  1. CNIC‑中心流量管理:所有流量走配对的计算网卡(CNIC)并使用 InfiniBand / RoCE 的虚拟层(VL/TC)将推理通信设为最高优先级,预留 99% 带宽给计算,缓存搬运只能在空闲时段“蹭”带宽。
  2. 自适应请求调度器:监控每节点磁盘队列长度和 数,优先分配 I/O 压力小、计算负载轻的节点,避免单点拥塞。

实验结果

在 660B 生产级模型上进行的离线 Rollout 与在线服务测试显示:

  • 离线吞吐量提升 1.87×
  • 在线服务吞吐量提升 1.96×
  • 首字延迟(TTFT)显著下降,‑to‑ 延迟保持稳定。

作者信息

第一作者 吴永彤 为北京大学金鑫教授的博士生,研究方向为基础设施与推理系统优化,曾在腾讯、华盛顿大学、微软亚洲研究院实习。

参考链接

  • 论文 PDF: https://arxiv.org/pdf/2602.21548
  • 个人主页: https://jokerwyt.github.io/

标签