专题:ai-customization

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

媒体AWS Machine Learning Blog2026/02/27 01:485760

本文介绍了亚马逊Nova模型的强化微调(RFT)技术,旨在解决传统监督式微调对大量标注数据依赖的问题。RFT通过评估而非模仿来训练AI,利用奖励函数(RLVR或RLAIF)优化模型行为,使其能自主探索解决方案路径。该技术特别适用于代码生成、客户服务等难以提供详细推理过程但结果可验证的场景,并能减少令牌消耗。亚马逊通过Bedrock、SageMaker等服务…