Amazon SageMaker AI 2025：可观测性、模型定制与托管深度升级

内容概述： 2025年，Amazon SageMaker AI在模型训练、调优和托管方面取得了显著进展。继第一部分介绍了灵活的训练计划和推理组件的性能优化后，本文将深入探讨SageMaker AI在可观测性、模型定制功能以及模型托管方面的新特性，这些改进为生成式AI带来了更广泛的应用场景和更高的运营效率。

一、增强的可观测性（Enhanced Observability） SageMaker AI在2025年显著提升了模型性能和基础设施健康状况的可见性。新增的详细指标能够精确记录CPU、内存、GPU的使用情况以及调用性能，并支持自定义数据发布频率。这使得团队能够诊断此前被端点级汇总数据掩盖的延迟问题和资源浪费。推理组件的滚动更新机制减少了重复的基础设施配置需求，并通过与Amazon CloudWatch警报系统集成实现自动回滚，确保部署的稳定性，同时通过逐步验证有效降低了风险。

二、细粒度指标（Granular Metrics） SageMaker AI引入了更细致的端点和容器级别性能及资源使用指标。这些指标有效解决了以往因数据汇总导致的可见性不足问题，帮助客户精准诊断延迟、调用失败和资源浪费。用户可以灵活配置指标发布频率，为关键应用提供近乎实时的监控能力。通过CreateEndpointConfig API中的MetricsConfig参数，用户能够快速洞察性能瓶颈，识别特定实例或容器的问题，优化资源分配，并将性能问题与底层基础设施资源关联起来。此功能与CloudWatch警报和自动扩展策略无缝集成，实现了对性能异常的主动监控和自动化响应。

三、模型定制与托管（Model Customization and Hosting）

无服务器模型定制（Serverless Model Customization）：SageMaker AI的无服务器定制功能极大地简化了模型调优流程。它能根据模型和数据规模自动配置计算资源，并支持强化学习（RLVR）和基于强化学习的人类反馈（RLAIF）等高级技术。该解决方案旨在赋能不同技术水平的团队，支持包括Amazon Nova、DeepSeek、GPT-OSS、Llama和Qwen在内的多种主流模型。
双向流（Bidirectional Streaming）：SageMaker AI现已支持双向数据流，实现了用户与模型之间实时、多模态的交互。相较于传统请求-响应模式，双向流显著降低了延迟，提升了交互效率，尤其适用于实时对话和多模态应用。
IPv6和PrivateLink支持（IPv6 and PrivateLink）：SageMaker AI新增了对IPv6的支持，提升了服务的可访问性和网络安全性，尤其适用于具有严格合规性要求的企业和组织。同时，PrivateLink的集成进一步增强了私有网络连接能力。
滚动更新与部署保护机制（Rolling Updates and Deployment Protection）：引入了先进的滚动更新机制，确保模型更新的安全高效部署，减少了重复基础设施配置的需求，从而降低了部署开销并提升了可靠性。

四、关于作者（About the Authors） 本文由AWS高级解决方案架构师团队撰写。Dan Ferguson和Dmitry Soldatkin专注于模型定制和无服务器功能；Lokeshwaran Ravi和Suma Kasa负责模型优化与部署安全；Deepti Ragha则致力于模型推理的优化工作。

总结（Conclusion） 2025年的SageMaker AI通过在可观测性、可靠性和可访问性方面的显著改进，有效解决了生成式AI大规模部署中的实际挑战。这些新功能将助力企业更快地推进AI项目，同时确保系统的高可靠性和安全性。目前，这些功能已在多个区域上线，用户可通过官方文档和AWS支持团队获取更多详细信息。

了解更多（Learn More） 建议访问相关文档和API，以开始体验这些强大的SageMaker AI新功能。

Amazon SageMaker AI 2025：可观测性、模型定制与托管深度升级

内容评分

摘要

正文

标签