专题:evaluation-framework

按该标签聚合的大模型资讯列表(自动分类与标签提取)。4 篇文章。

媒体Lobsters AI2026/04/01 02:335810
通用LLM评估框架
模块化测试流程

Pipevals是面向所有LLM应用的通用评估框架,提供标准化的性能分析流程。通过模块化设计支持多维度指标测试,可自动化完成数据预处理、评估计算与结果可视化。其核心亮点在于跨模型兼容性与系统化评估能力,为模型优化提供可靠数据支撑。

媒体AWS Machine Learning Blog2026/03/18 23:544840
Strands Evals 用于评估AI代理的非确定性输出
基于LLM的评估器替代传统断言测试

Strands Evals 是一个专为AI代理设计的系统化评估框架,通过案例、实验与LLM驱动的评估工具,解决传统测试无法处理的非确定性问题。它支持轨迹分析、多轮对话评估与在线/离线两种模式,帮助开发者量化代理的准确性、辅助性与行为合理性,适用于开发、测试与生产环境的质量保障。

媒体AWS Machine Learning Blog2026/02/19 03:214830

本文详细介绍了亚马逊用于评估AI代理系统的全面框架,该框架超越传统LLM指标,着重评估工具编排、多步推理和内存检索等涌现行为。它包含通用评估工作流和代理评估库,分底层LLM、代理组件(意图检测、工具使用)和整体任务完成/安全三个层次进行评估。文章通过购物助手和客服代理等实际案例,分享了多维度评估、特定用例指标、持续生产监控及人工在环(HITL)验证等最佳实…