P-EAGLE:通过并行推测解码加速LLM推理原文官方AWS Machine Learning Blog2026/03/14 03:276950• P-EAGLE 并行生成草稿令牌提升推理速度• 解决 EAGLE 自回归生成的性能瓶颈P-EAGLE 是一种通过并行生成草稿令牌提升 LLM 推理速度的新方法,解决了 EAGLE 自回归生成导致的性能瓶颈。它已在 vLLM 中集成,提供预训练模型,支持多种基准测试,并在不同并发度下实现显著加速。并行生成Triton内核推测解码VLLM并行处理