专题：disaggregated-inference

AWS 推出基于 llm-d 的分布式推理技术，提升 LLM 性能与资源利用率

媒体AWS Machine Learning Blog2026/03/17 00:557920

• llm-d 实现 LLM 分布式推理优化

• 分离 prefill 和 decode 阶段提升效率

AWS 与 llm-d 合作推出分布式推理技术，优化 LLM 的预填充和解码阶段，提升性能与资源利用率。通过智能调度、并行处理和分层缓存机制，llm-d 支持多节点部署，适用于大规模模型和复杂工作负载。