GPT-5在简单字母计数任务中暴露模型缺陷

Minimaxir2025/08/13 00:00机翻/自动摘要/自动分类

内容评分

技术含量

8/10

营销水分

6/10

摘要

文章测试了GPT-5在统计单词中字母数量任务中的表现，发现其错误率异常高。通过对比其他LLM，揭示了GPT-5在文本处理上的潜在缺陷，涉及tokenization机制和模型训练数据问题。该测试具有实际参考价值，展示了LLM在基础任务中的能力差异。

正文

上周，OpenAI发布了GPT-5，但其在一项基础任务中表现不佳，即统计单词'blueberry'中字母'b'的数量。尽管该问题对人类而言非常简单，GPT-5却错误地回答有三个'b'，而实际只有两个。类似地，Kieran Healy多次测试也得到相同结果。OpenAI CEO Sam Altman解释称，这可能是由于模型内部机制出现故障所致。一年前，AI界曾流行一个测试，要求统计'strawberry'中的'r'数量，多数模型也未能正确完成。研究人员随后设计了新的测试，发现除了GPT-5外，其他均能正确回答。进一步测试显示，GPT-5在不同输入格式下仍存在高错误率，表明其在处理此类文本任务时存在根本性缺陷。尽管如此，大多数仍能正确完成该任务，说明它们在文本处理方面具备一定能力，但在某些特定任务上仍有不足。

GPT-5在简单字母计数任务中暴露模型缺陷

内容评分

摘要

正文

标签