阿里发布Qwen3.6-Plus大模型,接入悟空企业AI应用。该模型在智能体编程和长程任务规划能力上突破,编程表现超越GLM-5、Kimi-K2.5等竞品,接近 Claude 系列。通过自然语言处理复杂工作流,实现研发、法务、财务等场景的自动化,企业使用成本降至每百万Tokens 2元,显著降低AI应用门槛。
专题:swe-bench
按该标签聚合的大模型资讯列表(自动分类与标签提取)。共 10 篇文章。
SWE-bench 测试中通过的 PRs 可能不会被合并,揭示 AI 生成代码在实际工程中的局限性。文章分析了代码质量、兼容性及开发者信任等因素,探讨了改进方向。
Gemini 3 Flash在Gemini CLI中发布,具备专业编码性能、低延迟和成本优势,SWE-bench得分为76%,与Gemini 3 Pro相当。适用于高频开发任务,支持大上下文窗口和快速生成负载测试脚本,提升开发效率。
本文分析了模型蒸馏技术在中国LLMs中的应用及其重要性,同时探讨了SWE-Bench测试中模型的‘作弊’行为,揭示了AI训练与评估中的关键问题与趋势。
SWE-Bench Verified因测试局限性被终止,OpenAI推出更全面的SWE-Bench Pro评估框架,强调实际应用能力与透明度,对AI研究者具有重要参考价值。
SWE-bench Verified因数据泄露和测试缺陷被质疑,推荐使用SWE-bench Pro替代。文章指出AI评估工具需持续优化以适应技术发展。
Gemini 3.1 Pro 在检索和成本上优于 GPT-5.2 和 Claude Opus 4.6,但存在工具和 UI 问题。SWE-bench Verified 评估方法引发争议,Claude Opus 4.6 因令牌限制表现不佳,Sonnet 4.6 虽有性能提升但用户不满增加。
Gemini 3.1 Pro在ARC-AGI 2测试中性能提升达2倍,推理与编码能力显著增强,但用户反馈存在分歧,部分功能仍不稳定。
Gemini 3和GPT-5.3-Codex Spark等AI模型在性能和效率上取得显著突破,MiniMax M2.5在SWE-Bench测试中表现优异。Anthropic融资300亿美元,收入突破100亿美元,显示其在AI领域的强劲发展。文章还提到开源模型竞争激烈,以及A2A协议等技术推动AI生态完善。
MiniMax-M2.5 是一款基于 Forge 强化学习框架的开源大模型,专为编码和工具调用设计。其在 SWE-Bench 测试中表现优异,通过率80.2%,成本低至每小时1美元。支持多种量化格式,便于部署,同时具备高计算资源利用率和多级前缀缓存机制,提升了代理的稳定性和执行效率。