微软开源AsgardBench:视觉交互式规划AI代理评估新基准原文官方Microsoft Research Blog2026/03/27 03:025820• 基于AI2-THOR的3D模拟环境• 动态视觉反馈调整计划AsgardBench是微软开源的视觉交互式规划AI评估工具,基于AI2-THOR模拟环境测试代理在动态场景中的适应能力。通过有限视觉反馈机制,揭示AI在复杂任务中的性能瓶颈,推动视觉grounding与规划技术发展,适用于研究与开发场景。开源工具AI代理评估动态反馈机制环境适应性视觉感知