专题：benchmarks

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 2 篇文章。

SWE-bench 2026年2月更新：Claude 4.5与多中国模型跻身前十

官方Simon Willison2026/02/19 12:487830

SWE-bench 2026年2月更新结果显示，Claude 4.5 Opus 以76.8%解决率领先，多中国模型如MiniMax M2.5、Kimi K2.5等进入前十。测试基于SWE-bench Verified数据集，使用统一提示确保公平性，但部分数据通过自定义代码获取，引发对测试透明度的讨论。

基准测试 Claude 大型语言模型中国的人工智能 AI编码代理

Import AI 445：超级智能的临界点、AI攻克前沿数学难题及全新机器学习基准

原文

媒体Import AI2026/02/16 22:015740

本期《Import AI 445》聚焦AI前沿进展。经济学家认为AI失业担忧被夸大，人性化服务仍有市场。Facebook发布高效推荐系统Kunlun，揭示其扩展规律。尼克·博斯特罗姆探讨超级智能的价值与风险，强调其在改善人类健康和保障长期生存方面的潜力。此外，AI研究科学基准AIRS-BENCH和数学测试First Proof的推出，标志着AI在评估自身能…

机器学习推荐系统基准测试数学AI AI研究