官方Simon Willison2026/02/19 12:487830
SWE-bench 2026年2月更新结果显示,Claude 4.5 Opus 以76.8%解决率领先,多中国模型如MiniMax M2.5、Kimi K2.5等进入前十。测试基于SWE-bench Verified数据集,使用统一提示确保公平性,但部分数据通过自定义代码获取,引发对测试透明度的讨论。
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 2 篇文章。
SWE-bench 2026年2月更新结果显示,Claude 4.5 Opus 以76.8%解决率领先,多中国模型如MiniMax M2.5、Kimi K2.5等进入前十。测试基于SWE-bench Verified数据集,使用统一提示确保公平性,但部分数据通过自定义代码获取,引发对测试透明度的讨论。
本期《Import AI 445》聚焦AI前沿进展。经济学家认为AI失业担忧被夸大,人性化服务仍有市场。Facebook发布高效推荐系统Kunlun,揭示其扩展规律。尼克·博斯特罗姆探讨超级智能的价值与风险,强调其在改善人类健康和保障长期生存方面的潜力。此外,AI研究科学基准AIRS-BENCH和数学测试First Proof的推出,标志着AI在评估自身能…