专题：evaluation-metrics

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

机器学习基准测试的演进与实践

原文

社区Hacker News2026/03/15 04:154730

• 系统梳理基准测试发展历程

• 分析多种任务的测试方法

本书系统探讨机器学习基准测试的发展、技术及应用价值，涵盖多种任务类型与评估指标，强调其在算法优化与行业标准中的作用，适合研究者和工程师参考。

机器学习基准测试评估指标模型优化算法对比行业标准

MMDeepResearch‑Bench：面向多模态深度研究代理的可核验评测基准

原文

媒体机器之心2026/02/14 16:3740

MMDeepResearch‑Bench（MMDR‑Bench）是由俄亥俄州立大学、Amazon Science 等联合发布的多模态深度研究代理评测基准。它提供 140 份覆盖 19 个领域的图像‑文本任务，要求模型在检索、读图、报告撰写全链路上实现证据可追溯、断言可对齐。评测框架包括 FLAE（长文质量）、TRACE（Claim‑URL 与视觉证据核验）…

多模态模型深度研究代理基准测试证据核验评估指标