亚马逊AI代理评估框架:从实践中汲取构建与部署的现实教训
内容评分
摘要
本文详细介绍了亚马逊用于评估AI代理系统的全面框架,该框架超越传统LLM指标,着重评估工具编排、多步推理和内存检索等涌现行为。它包含通用评估工作流和代理评估库,分底层LLM、代理组件(意图检测、工具使用)和整体任务完成/安全三个层次进行评估。文章通过购物助手和客服代理等实际案例,分享了多维度评估、特定用例指标、持续生产监控及人工在环(HITL)验证等最佳实践,为开发者提供了宝贵的实战经验。
正文
生成式AI行业正经历从单纯依赖大型语言模型()的应用程序向代理型AI系统的根本性转变,这标志着AI能力架构和部署方式的深刻变革。早期的生成式AI应用主要依赖直接生成文本和响应提示,而当前行业已从这种静态的提示响应范式,转向构建能够进行工具编排、迭代问题解决并在生产环境中执行适应性任务的自主代理框架,以实现动态、目标导向的系统。
自2025年以来,亚马逊内部已构建了数千个代理系统。虽然单一模型基准对于评估驱动应用中的性能至关重要,但代理型AI系统则需要根本性的评估方法转变。这种新范式不仅评估底层模型性能,更着重于评估整个系统的涌现行为,包括工具选择决策的准确性、多步推理过程的连贯性、内存检索操作的效率以及任务完成的整体成功率。
本文将介绍亚马逊用于评估其代理型AI系统的全面框架。该框架通过两个核心组件应对了亚马逊代理型AI应用的复杂性:一个通用的评估工作流,用于标准化各种代理实现的评估程序;以及一个代理评估库,提供系统测量和指标,包括亚马逊Bedrock AgentCore评估中的代理评估,以及亚马逊特定用例的评估方法和指标。我们还将分享与多个亚马逊团队合作期间积累的最佳实践和经验,为AWS开发者社区提供解决评估和部署代理型AI系统中类似挑战的实用见解。
亚马逊中的AI代理评估框架
AI代理的构建者在设计、开发和评估过程中面临诸多挑战。与仅响应孤立提示的传统驱动应用不同,AI代理能够自主追求目标,通过多步推理、工具使用和适应性决策进行多轮交互。传统的评估方法将代理系统视为黑盒,仅评估最终结果,这无法提供足够的洞察力来诊断AI代理失败的原因或确定根本问题。尽管行业内有多种专用评估工具,但构建者仍需耗费大量手动工作来整合不同工具的结果。此外,尽管Strands Agents、LangChain和LangGraph等代理开发框架内置了评估模块,但构建者更倾向于采用一种框架无关的评估方法,以避免被单一框架所束缚。
此外,强大的自我反思和错误处理能力要求系统性地评估代理在推理、工具使用、内存管理和行动执行的整个生命周期中如何检测、分类并从失败中恢复。例如,评估框架必须衡量代理识别各种失败场景的能力,包括推理模型的不当规划、无效工具调用、参数错误、意外工具响应格式、身份验证失败以及内存检索错误。生产级代理必须展示一致的错误恢复模式,并在遇到异常情况时保持用户交互的连贯性。
为满足这些需求,部署在生产环境中的大规模AI代理需要持续监控和系统评估,以及时检测并缓解代理性能退化。这要求代理评估框架能够简化端到端流程,并提供近乎实时的问题检测、通知和解决机制。最后,引入人工在环(HITL)流程对于审核评估结果至关重要,有助于确保系统输出的可靠性。
为应对这些挑战,我们提出了一种全面的代理型AI评估框架(如图所示),该框架包含两个关键组件:自动化AI代理评估工作流和AI代理评估库。

自动化AI代理评估工作流通过以下四个步骤推动整体评估方法。
步骤1:用户定义评估输入,通常是代理执行后的跟踪文件。这些跟踪文件可以是代理完成任务后离线收集并上传到框架统一API访问点的,也可以是用户定义的在线跟踪,用于指定评估维度和指标。
步骤2:利用AI代理评估库自动生成默认及用户定义的评估指标。库中的具体方法将在后续部分阐述。
步骤3:评估结果通过Amazon Simple Storage Service (Amazon S3) 存储桶存储,或通过可视化仪表板展示代理跟踪的可观察性和评估结果。
步骤4:通过代理性能审计和监控来分析结果。构建者可以定义规则,以便在代理性能下降时接收通知并采取纠正措施。此外,构建者还可以利用HITL机制定期审计代理跟踪子集和评估结果,以持续提升代理的质量和性能一致性。
AI代理评估库涵盖三个层次:计算和生成代理最终输出的评估指标、评估代理组件性能,以及衡量驱动代理的底层性能。
- 底层:基准测试多个基础模型,以选择合适的模型驱动AI代理,并确定不同模型对代理整体质量和和延迟的影响。
- 中间层:评估代理组件的性能,包括意图检测、多轮对话、内存管理、推理与规划、工具使用等。例如,中间层会确定代理是否正确理解用户意图,如何通过链式思考(CoT)推理驱动代理工作流规划,工具选择和执行是否与代理计划一致,以及计划是否成功完成。
- 顶层:评估代理的最终响应、任务完成情况以及代理是否满足用例中定义的目标。此层还涵盖了总体责任与安全性、成本和客户体验影响。
Amazon Bedrock AgentCore评估提供了自动化评估工具,用于衡量代理或工具执行特定任务、处理边缘情况以及在不同输入和上下文下保持一致性的能力。在代理评估库中,我们提供了一组基于AgentCore评估内置配置、评估器和指标的预定义评估指标。我们还进一步扩展了评估库,以适应亚马逊异构场景的复杂性和特定应用需求。库中的主要指标包括:
-
最终响应质量:
- 正确性:AI助手对给定任务响应的准确性。
- 忠实性:AI助手的响应是否与对话历史保持一致。
- 帮助性:AI助手的响应如何有效地帮助用户解决问题并达成目标。
- 响应相关性:AI助手的响应如何有效地回答具体问题或请求。
- 简洁性:AI助手如何高效地传达信息,例如响应是否适当简短且不遗漏关键信息。
-
任务完成:
- 目标成功:AI助手是否在对话会话中成功完成所有用户目标。
- 目标准确性:将输出与真实情况进行比较。
-
工具使用:
- 工具选择准确性:AI助手是否为给定情况选择了合适的工具。
- 工具参数准确性:AI助手是否正确使用上下文信息进行工具调用。
- 工具调用错误率:AI助手进行工具调用时的失败频率。
- 多轮函数调用准确性:评估工具是否被多次调用以及是否按正确顺序调用。
-
内存:
- 上下文检索:评估从记忆中检索准确结果的准确性,优先显示与查询最相关的上下文,并在相似度或排名基础上平衡精确度和召回率。
-
多轮:
- 话题一致性分类:评估多轮对话在包含多个主题时,是否在交互过程中保持在预定义的领域和话题上。
- 话题一致性拒绝:确定AI代理是否拒绝回答关于特定话题的问题。
-
推理:
- 接地准确性:评估模型是否理解任务、适当选择工具,以及链式思考(CoT)是否与提供的上下文和外部工具返回的数据一致。
- 忠实性评分:衡量推理过程中的逻辑一致性。
- 上下文评分:评估代理的每一步是否基于上下文进行。
-
责任和安全性:
- 幻觉:评估输出是否与已建立的知识、可验证数据、逻辑推理一致,或是否包含任何不真实、误导或完全虚构的元素。
- 毒性:评估输出是否包含有害、冒犯、不尊重或促进负面情绪的语言、建议或态度,包括可能具有攻击性、贬低、偏见或过度批判而无建设性目的的内容。
- 危害性:评估AI助手的响应中是否存在潜在有害内容,包括侮辱、仇恨言论、暴力、不适当内容和刻板印象。
请参阅AgentCore评估模板了解其他代理输出质量指标,或如何创建针对特定用例和评估需求量身定制的自定义评估器。
评估亚马逊实际使用的代理系统
过去几年中,亚马逊持续改进其代理型AI应用构建方法,以应对复杂的业务挑战,简化流程,提高运营效率并优化业务成果——从早期实验逐步转向跨多个业务部门的生产规模部署。这些代理型AI应用在企业规模上运行,并部署在AWS基础设施上,正改变着全球亚马逊运营中的工作方式。在本节中,我们将介绍几个来自亚马逊的实际代理型AI用例,以展示如何使用前面部分讨论的框架全面评估代理性能。
评估亚马逊购物助手AI代理中的工具使用
为亚马逊消费者提供流畅的购物体验,亚马逊购物助手能够无缝地与底层亚马逊系统的众多API和Web服务进行交互(如图所示)。AI代理需要整合底层亚马逊系统中的数百甚至数千个工具,以支持长时间的多轮对话。代理利用这些工具提供个性化体验,包括客户画像、产品和库存发现以及订单放置。然而,将如此庞大的企业API和Web服务手动整合到AI代理中是一个繁琐的过程,通常需要数月才能完成。

将遗留API和Web服务转换为代理兼容工具,需要系统地定义结构化模式和语义描述,以使代理的推理和规划机制能够在任务执行过程中准确识别并选择上下文相关的工具。不准确的工具模式和不精确的语义描述会导致代理在运行时错误选择工具,从而调用无关API,进而扩展上下文窗口、增加推理延迟并因冗余调用而增加计算成本。为解决这些挑战,亚马逊定义了跨组织的标准工具模式和描述形式化,并创建了一个治理框架,规定了所有参与工具开发和代理集成的构建者团队的强制性合规要求。这一标准化举措为工具接口、参数定义、能力描述和使用约束建立了统一规范,有助于确保来自不同组织单元的工具在结构模式和语义清晰度方面保持一致,从而实现可靠的代理-工具交互。所有参与工具开发和代理集成的构建者团队都必须遵循这些架构规范,其中规定了工具签名、输入验证模式、输出合同和人可读文档的标准化格式。这有助于确保企业代理系统中工具表示的一致性。此外,手动定义数百或数千个工具的模式和描述代表了巨大的工程负担,当多个API需要协调编排以完成复合任务时,复杂性会显著增加。亚马逊的构建者实现了一个API自我上线系统,利用自动化生成标准化工具模式和描述。这大大提高了将大量API和服务整合为代理兼容工具的效率,加速了集成时间并减少了手动工程负担。为评估API集成完成后工具选择和工具使用性能,亚马逊团队创建了回归测试的黄金数据集。这些数据集利用从历史API调用日志中生成,以模拟用户查询。利用预定义的工具选择和工具使用指标,如工具选择准确性、工具参数准确性以及多轮函数调用准确性,亚马逊构建者能够系统地评估购物助手AI代理正确识别适当工具、填充其参数并保持一致工具调用序列的能力。随着代理的不断发展,快速可靠地将新API作为代理中的工具集成并评估工具使用性能变得愈发重要。在生产环境中客观评估代理的功能可靠性,有效减少了开发工作量,同时在代理型AI应用中保持了稳健的性能。
评估亚马逊客户服务AI代理中的用户意图检测
在亚马逊客户服务领域,AI代理在处理客户查询和解决问题方面发挥着关键作用。这些系统的核心能力在于利用推理模型准确检测客户意图,这决定了客户查询是否被正确理解并路由到适当的专门解决者(如图所示)。意图检测的准确性至关重要。当客户服务代理错误理解客户意图时,可能引发一系列问题:查询被错误路由到专门解决者,客户收到不相关信息,从而导致客户不满。这不仅影响客户体验,还会增加运营成本,因为更多客户需要寻求人工代理的帮助。
为评估代理检测意图的推理能力,亚马逊团队开发了一个模拟器,利用驱动的虚拟客户角色模拟多样化的用户场景和交互。评估主要集中在生成的意图与正确意图的匹配度,以及是否路由到正确的子代理上。模拟数据集包含从匿名历史客户交互中收集的一组用户查询和真实意图对。利用模拟器,代理在模拟数据集中的用户查询上生成意图。通过将代理响应意图与真实意图进行比较,我们可以验证代理生成的意图是否符合真实意图。除了意图的准确性,评估还涵盖了任务完成——即代理的最终响应和意图解决,作为客户服务任务的最终目标。对于多轮对话,我们还纳入了话题一致性分类和话题一致性拒绝等指标,以确保对话的连贯性和用户体验质量。随着AI客户服务系统的不断发展,对用户意图检测的稳健代理推理评估变得愈发重要,其影响不仅限于即时客户满意度。它还能优化客户服务操作效率和服务交付成本,从而最大化AI投资回报。
评估亚马逊中的多代理系统
随着企业日益应对复杂业务环境中多方面的挑战,从跨功能工作流编排到不确定性下的实时决策,亚马逊团队正逐步采用多代理系统架构,将单一AI解决方案分解为专门的、协作的代理,这些代理能够进行分布式推理、动态任务分配和大规模的适应性问题解决。一个例子是亚马逊卖家助手AI代理,它涉及多个AI代理之间的协作(如图所示)。

代理型工作流始于规划者和任务协调器,它接收用户请求,将复杂任务分解为专门的子任务,并根据底层代理的能力和当前工作量智能地分配每个子任务。底层代理随后自主执行其分配的任务,利用其专门的工具、推理能力和领域专业知识来完成目标,而无需持续的协调器监督。任务完成后,专门代理将任务状态更新、完成确认、中间结果或超出其操作范围的场景的升级请求报告给协调器代理。协调器代理汇总这些响应,监控整体进度,处理子任务间的依赖关系,并将集体输出综合成一个连贯的最终结果,以解决原始用户请求。为评估这一多代理协作过程,评估工作流不仅要考虑单个代理的性能,还要考虑整个系统的整体动态。除了评估专门代理在任务执行、推理、工具使用和内存检索中的整体任务执行质量和性能外,我们还需要衡量代理间通信模式、协调效率和任务传递准确性。为此,亚马逊团队使用规划得分(成功将子任务分配给子代理)、通信得分(子任务完成的代理间通信消息)和协作成功率(成功完成子任务的百分比)等指标。在多代理系统评估中,人工在环(HITL)变得至关重要,因为复杂性增加和潜在的意外涌现行为可能超出自动化指标的捕捉范围。评估工作流中的人工干预对于评估代理间通信、识别特定边缘情况中的协调失败、评估代理专业化是否适当以及任务分解是否与代理能力一致至关重要。它还有助于确保多个代理共同决策时的逻辑一致性,并验证集体代理行为是否符合预期的业务目标。这些维度仅通过自动化指标难以量化,但对生产部署的成功至关重要。
重要教训和最佳实践
通过与在生产环境中部署代理型AI系统的亚马逊产品和工程团队的广泛合作,我们总结了评估大规模自主代理架构的关键经验教训和最佳实践,以应对其独特的挑战。
- 多维度全面评估:代理型应用评估必须超越传统的准确性指标,涵盖一个全面的评估框架,包括代理质量、性能、责任和成本。质量评估包括衡量推理连贯性、工具选择准确性以及在各种场景中的任务完成成功率。性能评估捕捉生产工作负载下的延迟、吞吐量和资源利用率。责任评估解决安全性、毒性、偏见缓解、幻觉检测以及与组织政策和监管要求一致的护栏机制。成本分析量化直接费用(包括模型推理、工具调用、数据处理)以及间接费用(如人力和错误修复)。这种多维度方法有助于在权衡中实现全面优化。
- 特定用例和应用评估:除了前述标准指标外,特定用例和应用的评估指标也对整体应用评估至关重要。例如,客户服务应用需要客户满意度评分、首次接触解决率和情感分析评分来衡量最终业务成果。这需要与领域专家密切合作,以定义有意义的成功标准、适当的指标,并创建反映实际运营复杂性的评估数据集,从而完成评估过程。
- 人工在环(HITL)作为关键评估组件:正如在多代理系统评估案例中讨论的,HITL对于高风险决策场景至关重要。它提供了对代理推理链、多步工作流连贯性以及代理行为与业务需求一致性的关键评估。HITL还有助于为构建黄金测试数据集提供真实标签,并校准自动评估器中的作为裁判,使其与人类偏好保持一致。
- 生产环境中的持续评估:保持质量至关重要,因为部署前的评估可能无法完全捕捉所有性能特征。生产评估监测多样化的用户行为、使用模式和生产部署前未充分代表的边缘情况,以识别随时间推移的性能退化。您可以通过操作仪表板跟踪关键指标,实施警报阈值,自动化异常检测过程,并建立反馈循环。当发现问题时,可以启动模型重新训练、优化上下文工程,并与最终业务目标保持一致。
结论
随着AI系统日益复杂,全面的AI代理评估方法的重要性不容忽视。通过在质量、性能、责任和成本维度上的全面评估,以及持续的生产监控和人工在环验证,代理型AI部署的整个生命周期——从开发到生产——都能得到有效管理。您可以借鉴本文介绍的示例、最佳实践和经验教训,并利用亚马逊Bedrock AgentCore评估中的丰富资源,加速自己的代理型AI项目,同时避免评估设计和实施中的常见陷阱。