专题：benchmark-testing

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

ADeLe：基于能力评估的AI性能预测与解析框架

官方Microsoft Research Blog2026/04/02 00:005820

• ADeLe提出能力评估框架

• 88%模型表现预测准确率

ADeLe是微软等机构提出的新型AI评估框架，通过18项能力指标体系预测模型表现并解析性能差异。其核心价值在于突破传统基准测试局限，实现模型能力结构化分析与任务难度建模，实验验证预测准确率达88%。该方法可揭示现有基准测试缺陷，为AI系统评估提供标准化工具，具有推动评估体系革新的潜力。

官方Microsoft Research Blog2026/03/27 03:025820

• 评估视觉交互规划能力

• 基于AI2-THOR仿真环境

AsgardBench是首个针对视觉交互规划的基准测试工具，通过AI2-THOR仿真环境评估AI代理在动态场景中的计划调整能力。研究证实视觉信息显著提升任务成功率，但现有模型仍存在细节处理缺陷。该开源项目为改进视觉感知系统和规划算法提供实验基础，推动具身智能领域发展。