专题：inference-acceleration

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

P-EAGLE：通过并行推测解码加速LLM推理

原文

官方AWS Machine Learning Blog2026/03/14 03:276950

• P-EAGLE 并行生成草稿令牌提升推理速度

• 解决 EAGLE 自回归生成的性能瓶颈

P-EAGLE 是一种通过并行生成草稿令牌提升 LLM 推理速度的新方法，解决了 EAGLE 自回归生成导致的性能瓶颈。它已在 vLLM 中集成，提供预训练模型，支持多种基准测试，并在不同并发度下实现显著加速。

并行生成 Triton内核推测解码 vLLM框架并行处理

微软重磅发布自研AI推理芯片，强化云端AI算力布局

原文

社区Reddit r/LocalLLaMA2026/02/22 18:226520

微软近日重磅发布了一款全新的自研AI推理芯片，旨在显著提升其Azure云平台在处理大型语言模型（LLM）及其他复杂AI推理任务时的性能与效率。此举是微软在AI硬件领域的重要战略布局，旨在减少对第三方GPU的依赖，并为客户提供更具成本效益和性能优势的AI算力。该芯片的核心亮点在于其针对AI推理工作负载的深度优化，包括高吞吐量、低延迟和卓越的能效比。它将与Az…

AI芯片推理加速微软 Azure 大语言模型硬件优化