专题:deep-research-agent

按该标签聚合的大模型资讯列表(自动分类与标签提取)。1 篇文章。

媒体机器之心2026/02/14 16:3740

MMDeepResearch‑Bench(MMDR‑Bench)是由俄亥俄州立大学、Amazon Science 等联合发布的多模态深度研究代理评测基准。它提供 140 份覆盖 19 个领域的图像‑文本任务,要求模型在检索、读图、报告撰写全链路上实现证据可追溯、断言可对齐。评测框架包括 FLAE(长文质量)、TRACE(Claim‑URL 与视觉证据核验)…