首页/详情

GPT-5在简单字母计数任务中暴露模型缺陷

Minimaxir2025/08/13 00:00机翻/自动摘要/自动分类
3 阅读

内容评分

技术含量
8/10
营销水分
6/10

摘要

文章测试了GPT-5在统计单词中字母数量任务中的表现,发现其错误率异常高。通过对比其他LLM,揭示了GPT-5在文本处理上的潜在缺陷,涉及tokenization机制和模型训练数据问题。该测试具有实际参考价值,展示了LLM在基础任务中的能力差异。

正文

上周,OpenAI发布了GPT-5,但其在一项基础任务中表现不佳,即统计单词'blueberry'中字母'b'的数量。尽管该问题对人类而言非常简单,GPT-5却错误地回答有三个'b',而实际只有两个。类似地,Kieran Healy多次测试也得到相同结果。OpenAI CEO Sam Altman解释称,这可能是由于模型内部机制出现故障所致。一年前,AI界曾流行一个测试,要求统计'strawberry'中的'r'数量,多数模型也未能正确完成。研究人员随后设计了新的测试,发现除了GPT-5外,其他均能正确回答。进一步测试显示,GPT-5在不同输入格式下仍存在高错误率,表明其在处理此类文本任务时存在根本性缺陷。尽管如此,大多数仍能正确完成该任务,说明它们在文本处理方面具备一定能力,但在某些特定任务上仍有不足。

标签