MMDeepResearch‑Bench：面向多模态深度研究代理的可核验评测基准

背景

Deep Research （深度研究代理）近期热度攀升，但现有评测仍停留在“看起来很强”。文本报告往往缺乏可追溯的证据链，尤其在引用图表、截图等视觉材料时，模型到底是“真正读懂”还是“仅仅写得像懂”。

MMDR‑Bench 的定位

由俄亥俄州立大学、Amazon Science 以及多所高校共同发起的 MMDeepResearch‑Bench（MMDR‑Bench），旨在把多模态深度研究的评估从“读起来不错”拉回到 过程可核验、证据可追溯、断言可对齐 的硬标准。

论文：MMDeepResearch‑Bench: A Benchmark for Multimodal Deep Research Agents（arXiv:2601.12346）
主页：https://mmdeepresearch-bench.github.io/
代码：https://github.com/AIoT-MLSys-Lab/MMDeepResearch-Bench
HF：https://huggingface.co/papers/2601.12346

任务设计

MMDR‑Bench 包含 140 项由领域专家精心构造的任务，覆盖 19 个学科。每项任务提供 图像‑文本 bundle，要求模型在检索网页、汇总证据的同时，必须解释并使用给定图像中的关键事实支撑报告结论。任务分为两类使用情境：

Daily：日常场景，输入多为截图、界面等噪声较高的图片，考察系统在不完整信息下的稳健理解与可核验写作。
Research：研究场景，输入为图表、表格、示意图等信息密集的视觉证据，强调细粒度读图与跨来源综合。

评测框架

MMDR‑Bench 将评估拆解为三段管线、12 项可定位指标，核心包括：

FLAE（可解释的长文质量评估）：基于结构、可读性、覆盖度等可复现特征，结合任务自适应信号，对报告整体质量进行可审计打分。
TRACE（Claim‑URL 支撑核验）：将报告拆解为原子断言，逐一对齐引用 URL，检测支撑性、矛盾性、过度推断，并引入 Visual Evidence Fidelity（Vef.） 作为硬约束，惩罚图像误读、数字错误等幻觉。
MOSAIC（图像‑句子对齐）：抽取所有涉及图像的句子，依据图表、照片、示意图等类型执行专属核验规则，定位“看错图、用错图、未真正 grounded”的错误。

关键观察

部分模型写作结构优秀，却在 Claim‑URL 对齐上松散，出现“引用多、支撑弱”。
有的模型能够读图，但在长链路合成时出现实体漂移，导致证据绑定错误对象。
检索覆盖率高的系统仍可能在细节（小数字、轴标签、单位）上翻车，视觉忠实度显著下降。

这些现象表明，深度研究的瓶颈正从“会写”转向“能被查”。

实际意义

MMDR‑Bench 为 Deep Research 提供了 可训练的对齐信号：每条关键断言必须被证据接住，每个引用必须可追溯，每次使用图像都必须与可观察事实对齐。这样，模型迭代不再依赖主观的 Prompt 调整或“看起来很强”的报告，而是基于可定位的失败模式进行系统性改进，推动 Deep Research 进入可工程化、可审计的时代。