专题：ai-customization

亚马逊Nova模型强化微调（RFT）：通过评估而非模仿优化LLM定制

媒体AWS Machine Learning Blog2026/02/27 01:485760

本文介绍了亚马逊Nova模型的强化微调（RFT）技术，旨在解决传统监督式微调对大量标注数据依赖的问题。RFT通过评估而非模仿来训练AI，利用奖励函数（RLVR或RLAIF）优化模型行为，使其能自主探索解决方案路径。该技术特别适用于代码生成、客户服务等难以提供详细推理过程但结果可验证的场景，并能减少令牌消耗。亚马逊通过Bedrock、SageMaker等服务…

强化学习大型语言模型微调 Amazon Bedrock AI定制化代码生成