Amazon SageMaker AI推出基于Amazon Nova的LLM评判器,实现动态评分标准与精准模型评估
AWS Machine Learning Blog2026/02/07 00:29机翻/自动摘要/自动分类
4 阅读
摘要
Amazon SageMaker AI推出基于Amazon Nova的LLM评判器,支持动态评分标准生成,可精准评估生成式AI模型输出。该评判器通过自动生成评估规则,提升模型迭代和数据质量控制的效率,具备可解释性、灵活性和高准确性三大核心亮点,适用于多种AI应用场景。
正文
Amazon SageMaker AI现已推出基于Amazon Nova的评判器,该评判器能够根据每个提示自动生成评估标准,从而实现对生成式AI模型输出的精准评估。与传统通用规则不同,该评判器通过动态生成评分标准,支持更细粒度的模型性能分析。评判器接受三元组输入(<prompt, response_1, response_2>),输出偏好标签及详细评分理由,包含加权评分标准、自然语言描述、Likert评分或二进制判断等信息。该功能适用于模型开发、训练数据质量控制及大规模模型输出分析等场景。此外,文章还提供了Jupyter Notebook代码示例,用于评估和比较两个不同的输出。评判器的训练基于多奖励机制,并通过正向一致性等指标进行校准,以确保其在不同数据分布下的决策一致性与准确性。相比旧版本,新版本的评判器输出更加结构化和详细,便于用户进行定制化评估和深入分析。