专题:swe-bench

按该标签聚合的大模型资讯列表(自动分类与标签提取)。10 篇文章。

媒体量子位2026/04/02 16:286600
Qwen3.6-Plus编程能力领先
悟空支持复杂任务规划

阿里发布Qwen3.6-Plus大模型,接入悟空企业AI应用。该模型在智能体编程和长程任务规划能力上突破,编程表现超越GLM-5、Kimi-K2.5等竞品,接近 Claude 系列。通过自然语言处理复杂工作流,实现研发、法务、财务等场景的自动化,企业使用成本降至每百万Tokens 2元,显著降低AI应用门槛。

媒体AINews2026/02/21 13:446760
Gemini 3.1 Pro 性能优于 GPT-5.2 和 Claude Opus 4.6
SWE-bench 评估方法存在争议

Gemini 3.1 Pro 在检索和成本上优于 GPT-5.2 和 Claude Opus 4.6,但存在工具和 UI 问题。SWE-bench Verified 评估方法引发争议,Claude Opus 4.6 因令牌限制表现不佳,Sonnet 4.6 虽有性能提升但用户不满增加。

媒体AINews2026/02/13 13:447840

MiniMax-M2.5 是一款基于 Forge 强化学习框架的开源大模型,专为编码和工具调用设计。其在 SWE-Bench 测试中表现优异,通过率80.2%,成本低至每小时1美元。支持多种量化格式,便于部署,同时具备高计算资源利用率和多级前缀缓存机制,提升了代理的稳定性和执行效率。