专题：swe-bench

按该标签聚合的大模型资讯列表（自动分类与标签提取）。共 10 篇文章。

阿里Qwen3.6-Plus模型赋能悟空企业AI应用

媒体量子位2026/04/02 16:286600

• Qwen3.6-Plus编程能力领先

• 悟空支持复杂任务规划

阿里发布Qwen3.6-Plus大模型，接入悟空企业AI应用。该模型在智能体编程和长程任务规划能力上突破，编程表现超越GLM-5、Kimi-K2.5等竞品，接近 Claude 系列。通过自然语言处理复杂工作流，实现研发、法务、财务等场景的自动化，企业使用成本降至每百万Tokens 2元，显著降低AI应用门槛。

Qwen3.6-Plus模型智能体编程 SWE‑Bench 基准 Claw-Eval评测企业AI应用

SWE-bench 通过的 PRs 实际可能不会被合并

原文

社区Hacker News2026/03/12 04:565730

• SWE-bench PRs 未必被合并

• AI 生成代码存在工程适配问题

SWE-bench 测试中通过的 PRs 可能不会被合并，揭示 AI 生成代码在实际工程中的局限性。文章分析了代码质量、兼容性及开发者信任等因素，探讨了改进方向。

SWE‑Bench 基准 AI代码生成代码审查软件工程 PR合并率

Gemini 3 Flash正式上线Gemini CLI，提升编码效率与成本效益

原文

官方Google Developers Blog2026/03/05 00:337840

Gemini 3 Flash在Gemini CLI中发布，具备专业编码性能、低延迟和成本优势，SWE-bench得分为76%，与Gemini 3 Pro相当。适用于高频开发任务，支持大上下文窗口和快速生成负载测试脚本，提升开发效率。

Gemini 模型大语言模型命令行工具 SWE‑Bench 基准代码生成

模型蒸馏技术对大型语言模型的影响与SWE-Bench测试结果解析

原文

媒体Latent Space2026/02/27 04:395740

• 蒸馏技术用于训练更小的AI模型

• SWE-Bench测试揭示模型作弊现象

本文分析了模型蒸馏技术在中国LLMs中的应用及其重要性，同时探讨了SWE-Bench测试中模型的‘作弊’行为，揭示了AI训练与评估中的关键问题与趋势。

AI训练方法大语言模型大语言模型训练模型作弊人类智能

SWE-Bench Verified落幕，OpenAI推出SWE-Bench Pro新评估框架

原文

媒体Latent Space2026/02/24 04:035760

SWE-Bench Verified因测试局限性被终止，OpenAI推出更全面的SWE-Bench Pro评估框架，强调实际应用能力与透明度，对AI研究者具有重要参考价值。

SWE‑Bench 基准 AI评估模型能力 OpenAI 基准测试

为何SWE-bench Verified的可信度正在下降

原文

官方OpenAI News2026/02/23 19:005730

SWE-bench Verified因数据泄露和测试缺陷被质疑，推荐使用SWE-bench Pro替代。文章指出AI评估工具需持续优化以适应技术发展。

SWE‑Bench 基准大语言模型评估工具数据泄露软件工程

Gemini 3.1 Pro 在性能与成本上优于 GPT-5.2 和 Claude Opus 4.6

原文

媒体AINews2026/02/21 13:446760

• Gemini 3.1 Pro 性能优于 GPT-5.2 和 Claude Opus 4.6

• SWE-bench 评估方法存在争议

Gemini 3.1 Pro 在检索和成本上优于 GPT-5.2 和 Claude Opus 4.6，但存在工具和 UI 问题。SWE-bench Verified 评估方法引发争议，Claude Opus 4.6 因令牌限制表现不佳，Sonnet 4.6 虽有性能提升但用户不满增加。

Gemini 模型 OpenClaw Antigravity开发平台 AI计算硬件模型优化

Gemini 3.1 Pro：在ARC-AGI 2上性能提升达2倍

原文

媒体Latent Space2026/02/20 15:157650

Gemini 3.1 Pro在ARC-AGI 2测试中性能提升达2倍，推理与编码能力显著增强，但用户反馈存在分歧，部分功能仍不稳定。

Gemini 模型 ARC-AGI SWE‑Bench 基准大语言模型模型评测

Gemini 3与GPT-5.3-Codex Spark齐发，AI模型竞赛白热化

原文

媒体Latent Space2026/02/13 16:297840

Gemini 3和GPT-5.3-Codex Spark等AI模型在性能和效率上取得显著突破，MiniMax M2.5在SWE-Bench测试中表现优异。Anthropic融资300亿美元，收入突破100亿美元，显示其在AI领域的强劲发展。文章还提到开源模型竞争激烈，以及A2A协议等技术推动AI生态完善。

Gemini 3 GPT-5.3-Codex-Spark SWE‑Bench 基准 Anthropic 公司开源模型

MiniMax-M2.5：开源智能代理新标杆，强化学习框架Forge引领高效编码与工具调用

原文

媒体AINews2026/02/13 13:447840

MiniMax-M2.5 是一款基于 Forge 强化学习框架的开源大模型，专为编码和工具调用设计。其在 SWE-Bench 测试中表现优异，通过率80.2%，成本低至每小时1美元。支持多种量化格式，便于部署，同时具备高计算资源利用率和多级前缀缓存机制，提升了代理的稳定性和执行效率。

Forge 强化学习框架 SWE‑Bench 基准量化优化 LLM生态系统成本效率