AI模型评估之困：为何新模型发布后数月方能辨其真伪？

<p><strong>当前一代AI模型的实际性能，至今无人能准确评判</strong>。以GPT-5为例，其发布之初普遍被认为表现平平。然而，三个月后，GPT-5（及其衍生模型GPT-5-Codex）在特定任务，尤其是“代理型工作”<sup id="fnref-1">1</sup>中，展现出惊人的强大能力：它们甚至打破了Anthropic在相关领域的垄断地位。实际上，GPT-5-Codex是我目前最喜欢的代理型编码模型。虽然它的运行速度比Claude Sonnet 4.5稍慢，但在处理复杂问题时表现得更为准确。那么，为什么我花了这么长时间才意识到这一点呢？</p> <h3>评估方法：高估模型真实能力的陷阱</h3> <p>传统上，我们依赖评估数据集（即用于测试模型的案例集）来衡量其性能。然而，<strong>这些评估方法往往并不可靠</strong>。许多模型在评估中得分很高，但在实际应用中却毫无用处。原因主要有以下几点：</p> <ol> <li><strong>为现实世界中的复杂问题设计有效的评估方法极具挑战性</strong>，因为这些问题往往需要大量的背景信息支撑。虽然可以尝试使用已解决的开源代码作为测试案例，但会遇到两个问题：</li> <ul> <li>开源代码与大多数实际编程任务存在显著差异（正如我在<a href="/impact-of-ai-study">METR关于AI生产力研究</a>中的评论所指出的）；</li> <li>这些评估数据仅覆盖了编程工作的一小部分（例如，著名的SWE-Bench评估集仅针对Python语言）。一个模型可能在Python方面表现优异，但在其他语言上却表现不佳。</li> </ul> <p>另一个问题是<strong>评估结果往往受到AI公司的影响</strong>。Anthropic或OpenAI的新模型在评估中的表现会直接影响这些公司的股价。这些公司无疑会竭力在评估中取得高分：或直接利用公开评估数据训练模型，或采用与评估数据高度相似的数据进行训练<sup id="fnref-2">2</sup>。因此，我们不能仅凭评估结果就断定模型的真实能力（因为几乎所有新模型在发布时都能获得优异的评估成绩）。</p> <h3>直觉判断：主观且不可靠的幻象</h3> <p>如果无法通过评估来判断模型的好坏，那我们还能依靠什么呢？许多人选择“直觉判断”：直接与模型互动并形成自己的看法。</p> <p>人们常会采用一些特定的测试问题（例如语言谜题），但这类问题往往容易被其他AI模型解答。即便如此，一些强大的模型在处理某些特殊问题时仍会遭遇瓶颈。此外，当前的AI模型在处理这类问题时已经过于强大，因此直觉判断的可靠性较低。</p> <p>有时人们还会使用艺术性的提示来测试模型（例如让模型生成图片）。Simon Willison曾让新模型绘制鹈鹕骑自行车的图片；现在在Twitter上也很常见人们对比不同模型生成的图片。不过，仅凭图片很难得出明确结论（例如，Claude Sonnet 4.5可能正确地绘制了鹈鹕的脚放在踏板上的场景，而GPT-5.1却把轮子画成了有辐条的形状）。</p> <p>最终，许多人依赖“直觉感受”来判断模型质量。然而，这种判断方法并不准确——人类或许能通过直觉感知模型的能力，但也极易产生错觉（例如，GPT-4o的对话风格可能令人误以为其智能水平更高）。</p> <h3>实际应用能力：唯有时间方能检验</h3> <p>对于那些需要解决复杂问题的人而言，存在一个简单却耗时的方法：直接让模型处理实际问题，以此判断其真实能力。我会让模型协助我完成某些任务。如果模型成功了，就能发现新的解决方案；如果失败了，至少能获得不同的视角。</p> <p>然而，这种方法需要花费大量时间和精力。因为只有亲自尝试才能真正了解模型的能力。如果不对问题有深入理解，就无法判断模型的好坏。因此，测试新模型存在风险：若模型最终被证明不实用，则意味着大量时间的浪费。我目前正在考虑是否投资于Gemini 3 Pro或GPT-5.1-Codex……</p> <h3>AI发展是否停滞？一个永恒的疑问</h3> <p>每次新模型发布，都会引发关于AI发展是否停滞的讨论。例如Gary Marcus认为，GPT系列模型的进步表明AI发展遇到了瓶颈。但几乎所有AI研究者都对此话题抱有浓厚兴趣。每次新模型发布都会引发猜测：这是AI发展的终结，还是AI模型会继续进步？核心问题在于，<strong>目前我们缺乏可靠的方法来评估AI模型的真实能力</strong>。</p> <p>假设AI模型的能力呈线性提升（即GPT-5确实比GPT-4强很多），我们真的能察觉到这种进步吗？</p> <p>与智力较低者交流时，差异显而易见：他们往往难以理解你的观点，或表达混乱不清。然而，与智力较高者交流时，情况则复杂得多。他们可能只是在胡言乱语，也可能仅仅是沟通方式不适合你。与AI模型交流亦是如此：GPT-3.5的智能水平明显低于人类，而GPT-5在大多数领域已超越人类平均水平<sup id="fnref-3">3</sup>。</p> <p>若缺乏客观的评估标准，我们便无法判断AI模型的真实进步。比如，我们能否判断计算机棋艺是否在提升？当棋艺引擎从拙劣水平提升至能击败人类时，我们或许会觉得进步显著；但实际上，现代棋艺引擎的强度已是20世纪80年代的两倍。</p> <h3>总结</h3> <ul> <li>新模型发布时，没人能准确判断其性能。即使是开发它的AI团队也只能猜测它是否适用于实际场景。</li> <li>评估方法更多是营销工具，难以真实反映模型的能力。</li> <li>直觉判断无法评估模型在实际工作中的表现。</li> <p>综上所述，很难判断AI发展是否停滞。模型是否真的在进步？它们现在是否足够强大？</p> <p>更复杂的是，当两个模型都比你聪明时，我们很难区分它们的差异。如果它们确实在进步，我们可能只会觉得它们的表现趋于稳定（因为一旦它们超越了我们，我们就无法察觉到进一步的变化）。</p> </ul> <h3>注释：</h3> <hr> <ol> <li>“代理型工作”指的是能够在循环中运行的LLM（如Copilot Agent Mode、Claude Code和Codex）。我还没有充分测试GPT-5.1-Codex，因此无法给出明确评价。</li> <li>如果模型仅针对评估数据集进行训练，它可能在评估中表现优异，但实际能力未必如此（这种现象称为“benchmaxxing”）。</li> <li>关于“智能”的定义，虽然难以精确界定，但GPT-4确实比GPT-3.5更智能。</li> </ol>

AI模型评估之困：为何新模型发布后数月方能辨其真伪？

内容评分

摘要

正文

标签