Gemini 3.1 Pro 在性能与成本上优于 GPT-5.2 和 Claude Opus 4.6

AINews2026/02/21 13:44机翻/自动摘要/自动分类

内容评分

技术含量

7/10

营销水分

6/10

摘要

Gemini 3.1 Pro 在检索和成本上优于 GPT-5.2 和 Claude Opus 4.6，但存在工具和 UI 问题。SWE-bench Verified 评估方法引发争议，Claude Opus 4.6 因令牌限制表现不佳，Sonnet 4.6 虽有性能提升但用户不满增加。

正文

Gemini 3.1 Pro 在检索能力和成本效益方面表现突出，优于 GPT-5.2 和 Claude Opus 4.6。然而，用户反馈指出其在工具和用户界面方面存在一些问题。SWE-bench Verified 评估方法的权威性受到质疑，后续更新使结果更贴近开发者宣称的性能。在 ARC-AGI 挑战中，关于哪些前沿模型真正能衡量 AI 能力，业界仍存在争议。Claude Opus 4.6 在软件任务上表现不稳定，但处理时间达到 14.5 小时，受限于令牌数量导致实际应用失败。Sonnet 4.6 在代码处理和指令执行方面有所提升，但因产品功能退化引发用户不满。

Gemini 3.1 Pro 在性能与成本上优于 GPT-5.2 和 Claude Opus 4.6

内容评分

摘要

正文

标签