Cursor发布新评测基准CursorBench，挑战AI编程智能体效率

量子位2026/03/14 14:25机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

7/10

摘要

Cursor推出CursorBench评测基准，强调真实任务与高效执行，与SWE-Bench等传统基准形成对比。评测方法结合线下标准化测试与线上用户反馈，旨在更准确地反映AI编程智能体的实际表现。

正文

Cursor推出了全新的AI编程评测基准CursorBench，旨在更真实地评估模型在复杂开发任务中的执行效率。与传统基准如SWE-Bench相比，CursorBench强调任务的真实性、评分机制的灵活性以及避免数据污染。其评测方法采用线上与线下混合模式，线下通过标准任务测试模型的正确性、代码质量、效率和交互行为，线上则通过A/B测试观察真实用户反馈。结果显示，Claude Haiku 4.5和Sonnet 4.5在CursorBench上的表现大幅下滑，凸显了CursorBench对模型执行能力的严格要求。Cursor还提到，未来将开发更复杂的评测套件，以适应长时运行的需求。

Cursor发布新评测基准CursorBench，挑战AI编程智能体效率

内容评分

摘要

正文

标签