AI模型评估之困:为何新模型发布后数月方能辨其真伪?
Sean Goedecke2025/11/22 08:00机翻/自动摘要/自动分类
5 阅读
内容评分
技术含量
7/10
营销水分
2/10
摘要
文章指出,准确评估新AI模型(如GPT-5)的真实性能需数月时间。传统的评估数据集因设计困难、覆盖面有限及AI公司可能进行“benchmaxxing”而不可靠。同时,依赖直觉或“vibe check”也极易产生错觉。唯一可靠但耗时的方法是让模型处理实际复杂问题。这种评估困境使得判断AI发展是否停滞变得异常艰难,尤其当模型智能超越人类时,其进一步的进步可能难以被察觉。
正文
<p><strong>当前一代AI模型的实际性能,至今无人能准确评判</strong>。以GPT-5为例,其发布之初普遍被认为表现平平。然而,三个月后,GPT-5(及其衍生模型GPT-5-Codex)在特定任务,尤其是“代理型工作”<sup id="fnref-1">1</sup>中,展现出惊人的强大能力:它们甚至打破了Anthropic在相关领域的垄断地位。实际上,GPT-5-Codex是我目前最喜欢的代理型编码模型。虽然它的运行速度比Claude Sonnet 4.5稍慢,但在处理复杂问题时表现得更为准确。那么,为什么我花了这么长时间才意识到这一点呢?</p>
<h3>评估方法:高估模型真实能力的陷阱</h3>
<p>传统上,我们依赖评估数据集(即用于测试模型的案例集)来衡量其性能。然而,<strong>这些评估方法往往并不可靠</strong>。许多模型在评估中得分很高,但在实际应用中却毫无用处。原因主要有以下几点:</p>
<ol>
<li><strong>为现实世界中的复杂问题设计有效的评估方法极具挑战性</strong>,因为这些问题往往需要大量的背景信息支撑。虽然可以尝试使用已解决的开源代码作为测试案例,但会遇到两个问题:</li>
<ul>
<li>开源代码与大多数实际编程任务存在显著差异(正如我在<a href="/impact-of-ai-study">METR关于AI生产力研究</a>中的评论所指出的);</li>
<li>这些评估数据仅覆盖了编程工作的一小部分(例如,著名的SWE-Bench评估集仅针对Python语言)。一个模型可能在Python方面表现优异,但在其他语言上却表现不佳。</li>
</ul>
<p>另一个问题是<strong>评估结果往往受到AI公司的影响</strong>。Anthropic或OpenAI的新模型在评估中的表现会直接影响这些公司的股价。这些公司无疑会竭力在评估中取得高分:或直接利用公开评估数据训练模型,或采用与评估数据高度相似的数据进行训练<sup id="fnref-2">2</sup>。因此,我们不能仅凭评估结果就断定模型的真实能力(因为几乎所有新模型在发布时都能获得优异的评估成绩)。</p>
<h3>直觉判断:主观且不可靠的幻象</h3>
<p>如果无法通过评估来判断模型的好坏,那我们还能依靠什么呢?许多人选择“直觉判断”:直接与模型互动并形成自己的看法。</p>
<p>人们常会采用一些特定的测试问题(例如语言谜题),但这类问题往往容易被其他AI模型解答。即便如此,一些强大的模型在处理某些特殊问题时仍会遭遇瓶颈。此外,当前的AI模型在处理这类问题时已经过于强大,因此直觉判断的可靠性较低。</p>
<p>有时人们还会使用艺术性的提示来测试模型(例如让模型生成图片)。Simon Willison曾让新模型绘制鹈鹕骑自行车的图片;现在在Twitter上也很常见人们对比不同模型生成的图片。不过,仅凭图片很难得出明确结论(例如,Claude Sonnet 4.5可能正确地绘制了鹈鹕的脚放在踏板上的场景,而GPT-5.1却把轮子画成了有辐条的形状)。</p>
<p>最终,许多人依赖“直觉感受”来判断模型质量。然而,这种判断方法并不准确——人类或许能通过直觉感知模型的能力,但也极易产生错觉(例如,GPT-4o的对话风格可能令人误以为其智能水平更高)。</p>
<h3>实际应用能力:唯有时间方能检验</h3>
<p>对于那些需要解决复杂问题的人而言,存在一个简单却耗时的方法:直接让模型处理实际问题,以此判断其真实能力。我会让模型协助我完成某些任务。如果模型成功了,就能发现新的解决方案;如果失败了,至少能获得不同的视角。</p>
<p>然而,这种方法需要花费大量时间和精力。因为只有亲自尝试才能真正了解模型的能力。如果不对问题有深入理解,就无法判断模型的好坏。因此,测试新模型存在风险:若模型最终被证明不实用,则意味着大量时间的浪费。我目前正在考虑是否投资于Gemini 3 Pro或GPT-5.1-Codex……</p>
<h3>AI发展是否停滞?一个永恒的疑问</h3>
<p>每次新模型发布,都会引发关于AI发展是否停滞的讨论。例如Gary Marcus认为,GPT系列模型的进步表明AI发展遇到了瓶颈。但几乎所有AI研究者都对此话题抱有浓厚兴趣。每次新模型发布都会引发猜测:这是AI发展的终结,还是AI模型会继续进步?核心问题在于,<strong>目前我们缺乏可靠的方法来评估AI模型的真实能力</strong>。</p>
<p>假设AI模型的能力呈线性提升(即GPT-5确实比GPT-4强很多),我们真的能察觉到这种进步吗?</p>
<p>与智力较低者交流时,差异显而易见:他们往往难以理解你的观点,或表达混乱不清。然而,与智力较高者交流时,情况则复杂得多。他们可能只是在胡言乱语,也可能仅仅是沟通方式不适合你。与AI模型交流亦是如此:GPT-3.5的智能水平明显低于人类,而GPT-5在大多数领域已超越人类平均水平<sup id="fnref-3">3</sup>。</p>
<p>若缺乏客观的评估标准,我们便无法判断AI模型的真实进步。比如,我们能否判断计算机棋艺是否在提升?当棋艺引擎从拙劣水平提升至能击败人类时,我们或许会觉得进步显著;但实际上,现代棋艺引擎的强度已是20世纪80年代的两倍。</p>
<h3>总结</h3>
<ul>
<li>新模型发布时,没人能准确判断其性能。即使是开发它的AI团队也只能猜测它是否适用于实际场景。</li>
<li>评估方法更多是营销工具,难以真实反映模型的能力。</li>
<li>直觉判断无法评估模型在实际工作中的表现。</li>
<p>综上所述,很难判断AI发展是否停滞。模型是否真的在进步?它们现在是否足够强大?</p>
<p>更复杂的是,当两个模型都比你聪明时,我们很难区分它们的差异。如果它们确实在进步,我们可能只会觉得它们的表现趋于稳定(因为一旦它们超越了我们,我们就无法察觉到进一步的变化)。</p>
</ul>
<h3>注释:</h3>
<hr>
<ol>
<li>“代理型工作”指的是能够在循环中运行的LLM(如Copilot Agent Mode、Claude Code和Codex)。我还没有充分测试GPT-5.1-Codex,因此无法给出明确评价。</li>
<li>如果模型仅针对评估数据集进行训练,它可能在评估中表现优异,但实际能力未必如此(这种现象称为“benchmaxxing”)。</li>
<li>关于“智能”的定义,虽然难以精确界定,但GPT-4确实比GPT-3.5更智能。</li>
</ol>