首页/详情

为何SWE-bench Verified的可信度正在下降

OpenAI News2026/02/23 19:00机翻/自动摘要/自动分类
3 阅读

内容评分

技术含量
7/10
营销水分
5/10

摘要

SWE-bench Verified因数据泄露和测试缺陷被质疑,推荐使用SWE-bench Pro替代。文章指出AI评估工具需持续优化以适应技术发展。

正文

SWE-bench Verified 作为评估大型语言模型在软件工程任务中表现的工具,其可信度正在减弱。研究表明,该测试存在设计缺陷,且训练数据存在泄露问题,导致其无法准确反映当前前沿编程技术的进展。因此,文章建议采用更可靠的替代方案——SWE-bench Pro。SWE-bench Verified 的问题凸显了在AI评估体系中,数据透明性和测试公平性的重要性。随着AI技术的快速发展,评估工具也需要不断迭代以保持其有效性。

标签