AWS 推出基于 llm-d 的分布式推理技术，提升 LLM 性能与资源利用率

AWS Machine Learning Blog2026/03/17 00:55机翻/自动摘要/自动分类

内容评分

技术含量

9/10

营销水分

7/10

摘要

AWS 与 llm-d 合作推出分布式推理技术，优化 LLM 的预填充和解码阶段，提升性能与资源利用率。通过智能调度、并行处理和分层缓存机制，llm-d 支持多节点部署，适用于大规模模型和复杂工作负载。

正文

本文介绍了 AWS 与开源框架 -d 的合作，推出了一种基于分布式推理的新型技术，旨在优化大型语言模型（）的推理性能。推理分为预填充（prefill）和解码（decode）两个阶段，分别对计算和内存有不同需求。传统部署方式无法有效区分这两个阶段，导致资源利用率低下。-d 通过引入分布式服务架构、智能请求调度、专家级并行处理和分层前缀缓存等技术，实现了更高效的资源分配和负载管理。该框架基于 vLLM 构建，支持 Kubernetes 原生部署，并集成了 NIXL、EFA 和 libfabric 等高性能组件。文章还提供了在 AWS Kubernetes 系统（如 SageMaker HyperPod 和 EKS）上部署 -d 的具体步骤和配置建议。

AWS 推出基于 llm-d 的分布式推理技术，提升 LLM 性能与资源利用率

内容评分

摘要

正文

标签