AsgardBench:视觉交互规划能力评估新基准原文官方Microsoft Research Blog2026/03/27 03:025820• 评估视觉交互规划能力• 基于AI2-THOR仿真环境AsgardBench是首个针对视觉交互规划的基准测试工具,通过AI2-THOR仿真环境评估AI代理在动态场景中的计划调整能力。研究证实视觉信息显著提升任务成功率,但现有模型仍存在细节处理缺陷。该开源项目为改进视觉感知系统和规划算法提供实验基础,推动具身智能领域发展。开源工具AI代理评估动态反馈机制环境适应性视觉感知