Cursor发布新评测基准CursorBench,挑战AI编程智能体效率
量子位2026/03/14 14:25机翻/自动摘要/自动分类
2 阅读
内容评分
技术含量
8/10
营销水分
7/10
摘要
Cursor推出CursorBench评测基准,强调真实任务与高效执行,与SWE-Bench等传统基准形成对比。评测方法结合线下标准化测试与线上用户反馈,旨在更准确地反映AI编程智能体的实际表现。
正文
Cursor推出了全新的AI编程评测基准CursorBench,旨在更真实地评估模型在复杂开发任务中的执行效率。与传统基准如SWE-Bench相比,CursorBench强调任务的真实性、评分机制的灵活性以及避免数据污染。其评测方法采用线上与线下混合模式,线下通过标准任务测试模型的正确性、代码质量、效率和交互行为,线上则通过A/B测试观察真实用户反馈。结果显示,Claude Haiku 4.5和Sonnet 4.5在CursorBench上的表现大幅下滑,凸显了CursorBench对模型执行能力的严格要求。Cursor还提到,未来将开发更复杂的评测套件,以适应长时运行的需求。