SWE-bench 2026年2月更新：Claude 4.5与多中国模型跻身前十

Simon Willison2026/02/19 12:48机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

7/10

摘要

SWE-bench 2026年2月更新结果显示，Claude 4.5 Opus 以76.8%解决率领先，多中国模型如MiniMax M2.5、Kimi K2.5等进入前十。测试基于SWE-bench Verified数据集，使用统一提示确保公平性，但部分数据通过自定义代码获取，引发对测试透明度的讨论。

正文

SWE-bench 是衡量大型语言模型在代码生成任务中表现的重要基准测试之一。此次更新基于 SWE-bench Verified 数据集（由 OpenAI 资助、人工筛选的 500 个样本），测试使用了 mini-swe-agent 工具（约 9,000 行 Python 代码），并对比了 Hugging Face 提供的 SWE-bench 数据集。该数据集涵盖 12 个开源项目，如 Django、Sympy、Scikit-learn 等，共包含 2,294 个实际编程问题。更新结果显示，Claude 4.5 Opus 以 76.8% 的解决率位居榜首，而 MiniMax M2.5、GPT-5.2、Kimi K2.5 和 DeepSeek V3.2 等中国模型也成功进入前十。值得注意的是，Claude 4.5 的表现略优于其 4.6 版本，仅高出约 1 个百分点。此外，测试中所有模型均使用相同的系统提示，以确保公平性，但这也意味着无法评估不同提示策略的效果。测试数据可通过 Datasette Lite 轻松查看，且部分百分比数据是通过 Claude AI 的自定义 JavaScript 代码提取的。Twitter 用户 @KLieret 指出，Claude 在测试中似乎切换到了 Playwright 框架。

SWE-bench 2026年2月更新：Claude 4.5与多中国模型跻身前十

内容评分

摘要

正文

标签