亚马逊Nova模型强化微调(RFT):通过评估而非模仿优化LLM定制
内容评分
摘要
本文介绍了亚马逊Nova模型的强化微调(RFT)技术,旨在解决传统监督式微调对大量标注数据依赖的问题。RFT通过评估而非模仿来训练AI,利用奖励函数(RLVR或RLAIF)优化模型行为,使其能自主探索解决方案路径。该技术特别适用于代码生成、客户服务等难以提供详细推理过程但结果可验证的场景,并能减少令牌消耗。亚马逊通过Bedrock、SageMaker等服务提供多层级RFT实施选项。
正文
基础模型在通用任务上展现出令人印象深刻的即时性能,但许多组织需要模型能够融入其特定的业务知识。模型定制有助于弥合通用AI与特定业务需求之间的鸿沟,特别是在构建需要领域专业知识的应用程序时——这些应用程序可能需要优化代码生成、财务推理或确保符合行业法规等任务。挑战在于如何有效地进行定制。传统的监督式()虽能产出结果,但前提是需具备数千个精心标注的示例,这些示例不仅要展示正确的最终答案,更要包含达到该答案的完整推理路径。对于许多实际应用来说,尤其是那些存在多个有效解决方案路径的任务,创建这些详细的逐步演示在实际应用中往往成本高昂且耗时。
本文将深入探讨针对亚马逊Nova模型的强化(RFT)技术,这是一种通过评估而非模仿来学习的强大定制方法。我们将介绍RFT的工作原理、其与监督式的对比优势、从代码生成到客户服务的实际应用案例,以及从完全托管的Amazon Bedrock到多轮代理工作流的多种实现选项。读者还将获得关于数据准备、奖励函数设计以及实现最佳效果的实用指导。
新范式:通过评估而非模仿来学习 试想,如果能教会一辆汽车不仅学习地图上的所有路径,还能在偏离方向时自我纠正,那将是怎样的体验?这就是强化(RFT)的核心理念。RFT将学习范式从传统的模仿学习转向基于评估的学习:您无需提供数千个带有标签的示例,只需提供提示,并通过测试用例、可验证的结果或预设的质量标准来定义正确的最终答案。模型随后通过迭代反馈学习优化这些标准,从而自主探索并发现正确的解决方案路径。
RFT支持代码生成和数学推理等模型的定制,因为它可自动验证输出,从而消除了提供详细逐步推理的必要性。亚马逊已在其AI服务中提供RFT,以满足客户在AI探索旅程中的多样化需求:从Amazon Bedrock的完全托管体验,到通过SageMaker Training Jobs获得更精细的控制,再到利用Nova Forge实现多轮对话和自定义强化学习环境,我们提供多种选择。
亚马逊于2025年12月推出了Nova 2系列模型,这是其首款内置推理能力的模型。与直接生成响应的传统模型不同,Nova 2 Lite等推理模型在生成最终答案前会进行逐步的问题分解和中间思考步骤。这种扩展的思考过程类似于人类处理复杂分析任务的方式。当与RFT结合使用时,这种推理能力尤为强大:RFT不仅能优化模型生成的答案,还能优化其解决问题的方式,同时引导模型发现更高效的推理路径,并减少令牌消耗。目前,RFT仅支持文本类型的用例。
实际用例 RFT在能够明确定义和验证正确结果的场景中表现出色,尤其适用于大规模创建详细逐步解决方案演示不切实际的情况。以下是一些RFT适用的场景:
- 代码生成:所需代码不仅要正确,还需高效、易读,并能优雅处理边缘情况(这些特性可通过测试执行和性能指标进行编程验证)。
- 客户服务:需要评估回复的帮助性、品牌风格一致性以及针对不同情境的语气选择。这些主观判断难以简化为简单规则,但可通过基于沟通标准训练的AI进行评估。
- 其他应用:内容审核(涉及上下文和细微差别);多步骤推理任务(如财务分析或法律文件审查);以及工具使用(教导模型何时及如何调用API或查询数据库)。在这些场景中,即使无法大规模展示逐步推理过程,也能明确定义和验证最终结果。
- 探索性任务:例如游戏玩法、策略制定、资源分配和调度等场景,模型可从不同方法中学习并从反馈中受益。
- 标签数据有限的情况:例如仅有少量专家注释的领域特定应用、缺乏既定解决方案模式的新问题领域,或标注成本高昂的任务(如医疗诊断、法律分析)。在这些情况下,RFT有助于优化奖励函数计算出的奖励。
RFT的工作原理 RFT通过一个三阶段的自动化流程运作:
- 响应生成:待定制的Actor模型从训练数据集中接收提示,并为每个提示生成多个响应(通常4到8个变体)。这种多样性为系统提供了丰富的响应供评估和学习。
- 奖励计算:系统不将响应与标签示例进行比较,而是利用奖励函数评估其质量。主要有两种选择:
- 基于可验证奖励的强化学习(RLVR):通过AWS Lambda函数实现的基于规则的评分器,非常适合代码执行或数学问题验证等客观任务,可编程检查正确性。
- 基于AI反馈的强化学习(RLAIF):基于AI的评分器,根据预设标准评估响应,非常适合评估帮助性、创造性或品牌风格一致性等主观任务。
- Actor模型训练:系统利用评分后的提示-响应对,通过针对语言模型优化的强化学习算法(如Group Relative Policy Optimization (GRPO))来训练模型。模型学习最大化生成高奖励响应的概率,同时最小化低奖励响应的概率。此迭代过程持续进行,直至模型达到预期性能。
RFT的核心优势:
- 无需庞大标注数据集:RFT仅需提示和评估质量的方法。若使用Bedrock RFT,甚至可直接利用现有Bedrock API调用日志作为RFT数据,无需额外创建数据集。
- 针对可验证结果优化:与需要明确演示如何达到正确答案的监督式不同,RFT适用于可定义和验证正确结果,但可能存在多种有效推理路径的任务。
- 减少令牌消耗:通过优化模型的推理过程,RFT能减少完成任务所需的令牌数量,从而降低生产成本。
- 安全且受监控:在定制过程中,您的专有数据始终在AWS安全环境中,并可实时监控训练指标以跟踪进度和确保质量。
实施层级: 亚马逊为Nova模型的强化提供了多种实施路径,涵盖从完全托管的体验到可定制的基础设施。这种分层方法使用户能根据自身具体需求、技术专长和所需控制级别,选择最适合的RFT实施方案。
作者简介 Bharathan Balaji和Anupam Dewan是亚马逊Web Services的高级应用科学家,专注于强化学习和基础模型服务,致力于构建助力客户业务转型的AI能力。Vignesh Radhakrishnan是AWS的高级软件工程师,专注于机器学习,尤其在强化学习和分布式训练领域面临挑战。