首页/详情

深度解析:在Amazon EKS上利用Union.ai与Flyte构建可扩展AI/ML工作流

AWS Machine Learning Blog2026/02/20 00:28机翻/自动摘要/自动分类
3 阅读

内容评分

技术含量
6/10
营销水分
7/10

摘要

本文深入探讨了如何利用开源项目 Flyte 和企业级解决方案 Union.ai 在 Amazon EKS 上构建可扩展、高可靠的 AI/ML 工作流。文章指出,AI项目从实验到生产面临基础设施复杂性、可复现性等挑战,而Flyte提供Python原生编排能力,Union.ai则通过托管服务、企业级安全和与AWS服务的深度集成,简化了运营开销。通过Woven by Toyota的案例,展示了该方案在成本节约和效率提升上的显著成效,为构建自动驾驶、LLM训练等复杂AI系统提供了实践指导。

正文

随着人工智能和机器学习(AI/ML)工作流的规模与复杂性日益增长,从业者在组织和部署模型时面临诸多挑战。AI项目常陷于试点阶段,难以顺利过渡到生产环境。究其原因,往往并非模型本身缺陷,而是基础设施与流程的碎片化、脆弱性,以及试点代码库因需求迭代而日益臃肿。这使得数据科学家和工程师难以在本地开发与生产环境间快速切换,并确保结果的可复现性。

本文将深入探讨如何利用 Flyte Python SDK 编排和扩展 AI/ML 工作流。同时,我们将详细阐述 Union.ai 2.0 系统如何在 Amazon Elastic Kubernetes Service (EKS) 上部署 Flyte,并实现与 Amazon Simple Storage Service (S3)Amazon AuroraAWS Identity and Access Management (IAM)Amazon CloudWatch 等核心 AWS 服务的无缝集成。为具体说明该解决方案,文章还将提供一个结合 Amazon S3 Vectors 的应用示例。

在 Kubernetes 上运行 AI/ML 工作流面临以下常见挑战:

  • 基础设施复杂性:在 Kubernetes 集群中动态配置适宜的计算资源(如 CPU、GPU、内存)极具挑战。
  • 实验与生产环境鸿沟:将实验性工作流推广至生产环境,往往意味着需要大规模重构数据管道。
  • 结果可复现性:确保实验结果一致性,要求精确追踪数据源、模型版本及各项实验参数。
  • 成本效益管理:高效利用弹性实例、实现自动扩展并避免资源过度配置是关键。
  • 系统可靠性:通过自动重试、检查点和故障恢复机制,优雅地处理系统故障至关重要。

因此,专为 AI/ML 设计的工具显得尤为关键,它们通过提供智能缓存、自动版本控制和动态资源分配等特性,显著简化了开发与部署流程。

选择 Flyte/Union 部署于 Amazon EKS 的理由:

  • Flyte:支持从本地笔记本到集群环境的动态执行,确保工作流的可复现性,并具备计算资源感知的智能编排能力。
  • Union.ai:其托管部署服务充分利用 Amazon EKS 的优势,确保工作流的无缝、可靠运行,同时免除了用户管理基础设施的繁重开销。
  • 纯 Python 语法:编排逻辑完全采用 Python 编写,相较传统编排工具可减少高达 66% 的代码量,极大地降低了学习专用语言的门槛,便于机器学习工程师和 AI 开发者快速迁移现有代码。

Union.ai 2.0 的额外优势包括:

  • 增强的可扩展性:工作流在运行时可根据实际需求动态伸缩。
  • 高可靠性:通过自动重试、检查点和故障恢复机制,确保系统稳定运行。
  • 支持长期运行的 AI 系统:提供对有状态(stateful)AI 系统和强大编排能力的支持。

Amazon EKS 的优势在于提供强大的计算、存储和网络基础设施。在此基础上,Flyte(作为开源项目)专注于工作流的编排,而 Union.ai 则进一步提供基础设施感知的智能编排、企业级安全保障以及开箱即用的高可扩展性。

企业案例:Woven by Toyota 丰田旗下的自动驾驶部门 Woven by Toyota 采用 Flyte 和 Union.ai 后,实现了每年数百万美元的成本节约,实验速度提升了 25 倍,迭代周期缩短了 96%,成效显著。

解决方案概述: 尽管开源的 Flyte 已具备强大的编排能力,但 Union.ai 2.0 通过集成企业级管理功能,有效消除了运营开销,使开发团队能够将精力聚焦于 AI 应用开发本身,而非繁琐的基础设施管理。其独特的混合架构兼顾了管理的便捷性与数据控制的完整性:

  • 区域控制平面:负责工作流的元数据管理与协调。
  • Union Operator:直接部署在 EKS 集群内部,确保数据、代码和密钥完全保留在用户的 AWS 环境中,保障数据主权与安全性。

Union.ai 2.0 的 AWS 集成架构由六个关键组件构成,旨在实现端到端的工作流管理:

  • 控制平面与数据平面:运行于 Union.ai 的 AWS 账户内,提供核心的身份验证、授权及监控功能。
  • 容器注册表:用于存储与工作流相关的容器镜像及数据。
  • 日志与监控:与 Flyte 深度集成,提供集中化的日志记录和全面的监控视图。
  • 安全性:通过 AWS IAM 角色实现细粒度的访问控制,确保数据与资源的安全性。

综上所述,使用 Union.ai 2.0 的主要益处在于:

  • 现代化编排能力:动态执行、容错机制和资源感知能力已成为其标准配置。
  • Amazon EKS 赋能:提供坚实的计算、存储和网络基础设施支撑。
  • Union.ai 价值:提供企业级的安全保障和开箱即用的高可扩展性。

部署选项多样,以适应不同需求:

  • Union BYOC (Bring Your Own Cloud):基础设施由 Union.ai 全面托管。
  • Union Self Managed:用户自行管理基础设施。
  • Flyte OSS on Amazon EKS:直接在 EKS 上部署开源版本的 Flyte。

前置条件(Prerequisites)

  • 具备 AWS 账户及相应的操作权限。
  • 支持的 Amazon EKS 版本。
  • 配置必要的 IAM 角色,以实现 Kubernetes 资源与 AWS 服务间的映射与交互。

Union.ai 2.0 对 Amazon S3 Vectors 的支持:通过深度集成 Amazon S3 Vectors,Union.ai 2.0 极大地简化了大规模向量数据的存储与管理,尤其适用于 )和语义搜索等应用场景。

客户案例:Woven by Toyota 丰田的自动驾驶部门通过采用 Union.ai 和 Flyte,成功降低了 AI 工作流的复杂性,并显著提升了整体效率。

结论:Union.ai 与 Flyte 强强联手,为在 Amazon EKS 上构建可靠、可扩展的 AI 系统奠定了坚实基础。无论是开发自动驾驶系统、训练大型语言模型(),还是协调复杂的数据管道,这套解决方案都能提供强大的支持。

如何开始

  • 可通过 AWS Marketplace 或其他官方渠道获取 Union.ai 服务。
  • 尝试 Flyte 的开源免费版本或其企业级解决方案。
  • 查阅官方文档和教程,获取更详细的指导信息。

关于作者:ND Ngoka 和 Samhita Alla 均为 AWS 高级解决方案架构师,专注于 AI/ML 和存储技术领域。Kristy Cook 则是 Union.ai 的合作伙伴关系负责人,致力于推动 AI 生态系统的战略整合。

标签