首页/详情

P-EAGLE:通过并行推测解码加速LLM推理

AWS Machine Learning Blog2026/03/14 03:27机翻/自动摘要/自动分类
5 阅读

内容评分

技术含量
9/10
营销水分
6/10

摘要

P-EAGLE 是一种通过并行生成草稿令牌提升 LLM 推理速度的新方法,解决了 EAGLE 自回归生成导致的性能瓶颈。它已在 vLLM 中集成,提供预训练模型,支持多种基准测试,并在不同并发度下实现显著加速。

正文

P-EAGLE 是一种新型的推测解码方法,旨在解决 EAGLE 在生成长序列时因自回归生成草稿令牌而导致的性能瓶颈。EAGLE 通过逐个生成 K 个草稿令牌,需要 K 次前向传递,而 P-EAGLE 则在单个前向传递中生成所有 K 个草稿令牌,从而显著提升推理速度。该方法已在 vLLM 中集成,并提供了预训练模型供直接使用。P-EAGLE 的架构分为两个步骤:预填充和并行草稿生成。在预填充阶段,模型处理提示并生成隐藏状态;在并行草稿阶段,草稿器利用这些隐藏状态和掩码词嵌入,预测多个草稿令牌。为应对训练时的内存挑战,P-EAGLE 引入了序列分区算法,并通过 Triton 内核和隐藏状态管理优化了性能。实验结果显示,在多个基准测试中,P-EAGLE 相比 EAGLE-3 实现了 1.05-1.69 倍的加速。文章还提供了在 vLLM 中启用 P-EAGLE 的配置示例和命令。

标签