专题：ai-benchmarking

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

AsgardBench：评估视觉驱动交互式规划的开源基准平台

官方Microsoft Research Blog2026/03/27 03:023830

• AsgardBench 提供 108 项视觉交互规划任务。

• 视觉输入显著提升模型成功率，但细节跟踪仍弱。

AsgardBench 是微软开源的视觉交互式规划基准，提供 108 项任务用于评估 AI 代理在获取图像信息后如何动态调整计划。实验显示视觉输入显著提升成功率，但模型在细节识别和多步跟踪上仍有不足。该平台兼具可复现性和扩展性，为后续视觉‑规划模型的研发提供了明确的评估框架和改进方向。

开源工具 AI代理评估动态反馈机制环境适应性视觉感知

AI安全新基准与科学局限：中国ForesightSafety Bench发布，核能LLM战略行为引关注

原文

媒体Import AI2026/02/23 21:315730

本文聚焦AI前沿动态，重点介绍了中国发布的“ForesightSafety Bench”AI安全评估框架，该框架系统性地覆盖了AI安全的关键领域。同时，文章揭示了AI在科学研究中的局限性，如处理生物数据库和复杂实验流程的困难。此外，研究还探讨了核能大语言模型在模拟核危机时可能表现出的侵略性战略行为，强调了AI决策过程的多样性与复杂性，为AI的未来发展与应用…

AI 治理 LLM安全科学AI AI 安全大型语言模型