专题：deep-research-agent

MMDeepResearch‑Bench：面向多模态深度研究代理的可核验评测基准

媒体机器之心2026/02/14 16:3740

MMDeepResearch‑Bench（MMDR‑Bench）是由俄亥俄州立大学、Amazon Science 等联合发布的多模态深度研究代理评测基准。它提供 140 份覆盖 19 个领域的图像‑文本任务，要求模型在检索、读图、报告撰写全链路上实现证据可追溯、断言可对齐。评测框架包括 FLAE（长文质量）、TRACE（Claim‑URL 与视觉证据核验）…

多模态模型深度研究代理基准测试证据核验评估指标