首页/详情

SWE-bench 2026年2月更新:Claude 4.5与多中国模型跻身前十

Simon Willison2026/02/19 12:48机翻/自动摘要/自动分类
3 阅读

内容评分

技术含量
8/10
营销水分
7/10

摘要

SWE-bench 2026年2月更新结果显示,Claude 4.5 Opus 以76.8%解决率领先,多中国模型如MiniMax M2.5、Kimi K2.5等进入前十。测试基于SWE-bench Verified数据集,使用统一提示确保公平性,但部分数据通过自定义代码获取,引发对测试透明度的讨论。

正文

SWE-bench 是衡量大型语言模型在代码生成任务中表现的重要基准测试之一。此次更新基于 SWE-bench Verified 数据集(由 OpenAI 资助、人工筛选的 500 个样本),测试使用了 mini-swe-agent 工具(约 9,000 行 Python 代码),并对比了 Hugging Face 提供的 SWE-bench 数据集。该数据集涵盖 12 个开源项目,如 Django、Sympy、Scikit-learn 等,共包含 2,294 个实际编程问题。更新结果显示,Claude 4.5 Opus 以 76.8% 的解决率位居榜首,而 MiniMax M2.5、GPT-5.2、Kimi K2.5 和 DeepSeek V3.2 等中国模型也成功进入前十。值得注意的是,Claude 4.5 的表现略优于其 4.6 版本,仅高出约 1 个百分点。此外,测试中所有模型均使用相同的系统提示,以确保公平性,但这也意味着无法评估不同提示策略的效果。测试数据可通过 Datasette Lite 轻松查看,且部分百分比数据是通过 Claude AI 的自定义 JavaScript 代码提取的。Twitter 用户 @KLieret 指出,Claude 在测试中似乎切换到了 Playwright 框架。

标签