P-EAGLE：通过并行推测解码加速LLM推理

AWS Machine Learning Blog2026/03/14 03:27机翻/自动摘要/自动分类

内容评分

技术含量

9/10

营销水分

6/10

摘要

P-EAGLE 是一种通过并行生成草稿令牌提升 LLM 推理速度的新方法，解决了 EAGLE 自回归生成导致的性能瓶颈。它已在 vLLM 中集成，提供预训练模型，支持多种基准测试，并在不同并发度下实现显著加速。

正文

P-EAGLE 是一种新型的推测解码方法，旨在解决 EAGLE 在生成长序列时因自回归生成草稿令牌而导致的性能瓶颈。EAGLE 通过逐个生成 K 个草稿令牌，需要 K 次前向传递，而 P-EAGLE 则在单个前向传递中生成所有 K 个草稿令牌，从而显著提升推理速度。该方法已在 vLLM 中集成，并提供了预训练模型供直接使用。P-EAGLE 的架构分为两个步骤：预填充和并行草稿生成。在预填充阶段，模型处理提示并生成隐藏状态；在并行草稿阶段，草稿器利用这些隐藏状态和掩码词嵌入，预测多个草稿令牌。为应对训练时的内存挑战，P-EAGLE 引入了序列分区算法，并通过 Triton 内核和隐藏状态管理优化了性能。实验结果显示，在多个基准测试中，P-EAGLE 相比 EAGLE-3 实现了 1.05-1.69 倍的加速。文章还提供了在 vLLM 中启用 P-EAGLE 的配置示例和命令。

P-EAGLE：通过并行推测解码加速LLM推理

内容评分

摘要

正文

标签