专题:disaggregated-inference

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

媒体AWS Machine Learning Blog2026/03/17 00:557920
llm-d 实现 LLM 分布式推理优化
分离 prefill 和 decode 阶段提升效率

AWS 与 llm-d 合作推出分布式推理技术,优化 LLM 的预填充和解码阶段,提升性能与资源利用率。通过智能调度、并行处理和分层缓存机制,llm-d 支持多节点部署,适用于大规模模型和复杂工作负载。