Gemini 3.1 Pro 在性能与成本上优于 GPT-5.2 和 Claude Opus 4.6
AINews2026/02/21 13:44机翻/自动摘要/自动分类
6 阅读
内容评分
技术含量
7/10
营销水分
6/10
摘要
Gemini 3.1 Pro 在检索和成本上优于 GPT-5.2 和 Claude Opus 4.6,但存在工具和 UI 问题。SWE-bench Verified 评估方法引发争议,Claude Opus 4.6 因令牌限制表现不佳,Sonnet 4.6 虽有性能提升但用户不满增加。
正文
Gemini 3.1 Pro 在检索能力和成本效益方面表现突出,优于 GPT-5.2 和 Claude Opus 4.6。然而,用户反馈指出其在工具和用户界面方面存在一些问题。SWE-bench Verified 评估方法的权威性受到质疑,后续更新使结果更贴近开发者宣称的性能。在 ARC-AGI 挑战中,关于哪些前沿模型真正能衡量 AI 能力,业界仍存在争议。Claude Opus 4.6 在软件任务上表现不稳定,但处理时间达到 14.5 小时,受限于令牌数量导致实际应用失败。Sonnet 4.6 在代码处理和指令执行方面有所提升,但因产品功能退化引发用户不满。