2025 年 Amazon SageMaker AI 关键升级:灵活训练计划、跨 AZ 高可用与 EAGLE‑3 推理加速
AWS Machine Learning Blog2026/02/21 04:26机翻/自动摘要/自动分类
4 阅读
内容评分
技术含量
7/10
营销水分
6/10
摘要
2025 年 Amazon SageMaker AI 推出灵活训练计划用于推理端点,并通过多 AZ 高可用、LoRA 并行扩展和 EAGLE‑3 自适应解码四项技术显著提升推理成本性能。新功能实现 GPU 预留、容错提升和吞吐增长,帮助用户在生产环境中更高效、低成本地部署大模型。
正文
概览
2025 年,Amazon SageMaker AI 在容量、成本性能、可观测性和可用性四大维度实现了显著升级。本文聚焦两大亮点:灵活训练计划的推理端点化以及推理工作负载的成本性能优化。
1. 灵活训练计划(Flexible Training Plans)支持推理端点
传统上,SageMaker 的训练计划仅用于预留训练算力。2025 年,AWS 将其扩展至推理端点,解决了在关键评估、限时生产测试或流量突增时 GPU 资源紧张的问题。
- 自定义预留:用户可指定实例类型、数量、时长以及具体时间窗口。
- 透明定价:按预留时段计费,预算规划更直观。
- 即时生效:在预定窗口内,推理端点自动获得预留的 GPU,避免冷启动和排队延迟。
2. 推理工作负载的成本性能优化
SageMaker 在推理层面推出四项核心改进:
- 灵活训练计划的推理化:提升 GPU 利用率,降低空闲成本。
- 多可用区(Multi‑AZ)高可用:工作负载跨 AZ 自动分布,容错与稳定性同步提升。
- 并行扩展与 LoRA 适配器:动态加载 LoRA(Low‑Rank Adaptation)适配器,实现多模型并行推理,显著提升吞吐量。
- EAGLE‑3 自适应解码:新一代解码算法在保持生成质量的前提下,降低每 计算量,实现更高的推理效率。
3. 效果与意义
- 成本下降:通过弹性预留和自适应解码,推理成本平均下降约 30%。
- 性能提升:多 AZ 部署与 LoRA 并行加载,使峰值吞吐提升 2‑3 倍。
- 运营简化:统一的计划界面和统一计费模型,让团队把精力聚焦在模型研发与业务价值上。
结语
这些基础设施层面的升级,使 SageMaker 在生产级 部署场景下更具竞争力。后续文章将进一步探讨可观测性、模型定制化以及托管服务的最新进展。