大模型资讯聚合站

首页/详情

2025 年 Amazon SageMaker AI 关键升级：灵活训练计划、跨 AZ 高可用与 EAGLE‑3 推理加速

AWS Machine Learning Blog2026/02/21 04:26机翻/自动摘要/自动分类

4 阅读

内容评分

技术含量

7/10

营销水分

6/10

摘要

2025 年 Amazon SageMaker AI 推出灵活训练计划用于推理端点，并通过多 AZ 高可用、LoRA 并行扩展和 EAGLE‑3 自适应解码四项技术显著提升推理成本性能。新功能实现 GPU 预留、容错提升和吞吐增长，帮助用户在生产环境中更高效、低成本地部署大模型。

正文

概览

2025 年，Amazon SageMaker AI 在容量、成本性能、可观测性和可用性四大维度实现了显著升级。本文聚焦两大亮点：灵活训练计划的推理端点化以及推理工作负载的成本性能优化。

1. 灵活训练计划（Flexible Training Plans）支持推理端点

传统上，SageMaker 的训练计划仅用于预留训练算力。2025 年，AWS 将其扩展至推理端点，解决了在关键评估、限时生产测试或流量突增时 GPU 资源紧张的问题。

自定义预留：用户可指定实例类型、数量、时长以及具体时间窗口。
透明定价：按预留时段计费，预算规划更直观。
即时生效：在预定窗口内，推理端点自动获得预留的 GPU，避免冷启动和排队延迟。

2. 推理工作负载的成本性能优化

SageMaker 在推理层面推出四项核心改进：

灵活训练计划的推理化：提升 GPU 利用率，降低空闲成本。
多可用区（Multi‑AZ）高可用：工作负载跨 AZ 自动分布，容错与稳定性同步提升。
并行扩展与 LoRA 适配器：动态加载 LoRA（Low‑Rank Adaptation）适配器，实现多模型并行推理，显著提升吞吐量。
EAGLE‑3 自适应解码：新一代解码算法在保持生成质量的前提下，降低每计算量，实现更高的推理效率。

3. 效果与意义

成本下降：通过弹性预留和自适应解码，推理成本平均下降约 30%。
性能提升：多 AZ 部署与 LoRA 并行加载，使峰值吞吐提升 2‑3 倍。
运营简化：统一的计划界面和统一计费模型，让团队把精力聚焦在模型研发与业务价值上。

结语

这些基础设施层面的升级，使 SageMaker 在生产级部署场景下更具竞争力。后续文章将进一步探讨可观测性、模型定制化以及托管服务的最新进展。

标签

AI基础设施推理优化 Amazon SageMaker AWS Sagemaker 灵活训练计划多可用区高可用 GPU资源预留大语言模型推理 EAGLE‑3 自适应解码成本优化