MMDeepResearch‑Bench:面向多模态深度研究代理的可核验评测基准原文媒体机器之心2026/02/14 16:3740MMDeepResearch‑Bench(MMDR‑Bench)是由俄亥俄州立大学、Amazon Science 等联合发布的多模态深度研究代理评测基准。它提供 140 份覆盖 19 个领域的图像‑文本任务,要求模型在检索、读图、报告撰写全链路上实现证据可追溯、断言可对齐。评测框架包括 FLAE(长文质量)、TRACE(Claim‑URL 与视觉证据核验)…多模态模型深度研究代理基准测试证据核验评估指标