Amazon SageMaker AI推出基于Amazon Nova的LLM评判器，实现动态评分标准与精准模型评估

AWS Machine Learning Blog2026/02/07 00:29机翻/自动摘要/自动分类

摘要

Amazon SageMaker AI推出基于Amazon Nova的LLM评判器，支持动态评分标准生成，可精准评估生成式AI模型输出。该评判器通过自动生成评估规则，提升模型迭代和数据质量控制的效率，具备可解释性、灵活性和高准确性三大核心亮点，适用于多种AI应用场景。

正文

Amazon SageMaker AI现已推出基于Amazon Nova的评判器，该评判器能够根据每个提示自动生成评估标准，从而实现对生成式AI模型输出的精准评估。与传统通用规则不同，该评判器通过动态生成评分标准，支持更细粒度的模型性能分析。评判器接受三元组输入（<prompt, response_1, response_2>），输出偏好标签及详细评分理由，包含加权评分标准、自然语言描述、Likert评分或二进制判断等信息。该功能适用于模型开发、训练数据质量控制及大规模模型输出分析等场景。此外，文章还提供了Jupyter Notebook代码示例，用于评估和比较两个不同的输出。评判器的训练基于多奖励机制，并通过正向一致性等指标进行校准，以确保其在不同数据分布下的决策一致性与准确性。相比旧版本，新版本的评判器输出更加结构化和详细，便于用户进行定制化评估和深入分析。