OpenAI GPT-5.4意外泄露:代码线索揭示200万Tokens上下文与像素级视觉能力
内容评分
摘要
OpenAI的GPT-5.4模型近期意外泄露,多处代码和界面线索指向其存在。传闻该模型将具备200万Tokens的超大上下文窗口,实现对长篇内容的持久记忆;同时,通过支持原始分辨率图像处理,有望提供像素级精准的视觉分析能力。泄露证据包括Codex代码拉取请求、GitHub提交记录及模型下拉选项。尽管存在炒作质疑,但这些迹象预示着OpenAI在长上下文和多模态理解方面的新突破。文章也提及了业界对模型准确率的关注,以及对DeepSeek V4等竞争者的期待。
正文
近期,OpenAI的下一代模型GPT-5.4的踪迹在多个渠道意外泄露,引发了业界广泛关注。最初,一张在社交平台X上疯传的图片显示,在OpenAI的编码助手Codex的代码拉取请求中,赫然出现了“GPT-5.4”字样,并提及了用于快速模式的/Fast命令。这并非首次发现GPT-5.4的线索。此前,OpenAI某开发人员在GitHub提交的代码拉取请求中,其版本判断条件的变更说明意外透露:“在尚在开发的view_image_original_resolution功能开关背后,为view_image接口添加了原始分辨率支持。当该功能开关启用,且目标模型为gpt-5.4或更新版本时……”尽管随后该引用被迅速修改为gpt-5.3-codex,但这一细节仍被捕捉。此外,Codex的模型下拉选项中也曾短暂出现过GPT-5.4模型的身影。这些连续的迹象似乎都在暗示,GPT-5.4的发布已为时不远。
关于GPT-5.4的核心能力,目前主要有两大传闻。首先是其可能搭载高达200万Tokens的上下文窗口,这将使其能够处理并“记住”超长篇幅的内容,实现更持久的记忆能力。然而,有技术专家指出,要实现如此庞大的上下文窗口并确保长期记忆不衰减,模型推理时所需缓存的数据量将呈指数级增长,这无疑是一个巨大的技术挑战。其次,泄露的代码拉取请求中还提及,为“GPT-5.4或更新版本”新增了一项功能开关,允许绕过传统的图像压缩机制,直接保留全分辨率的原始图像字节数据。这意味着GPT-5.4有望具备像素级精准的视觉分析能力,对于前端开发者、设计师和工程师而言,将能够上传高精度的UI原型或复杂的工程原理图,模型能完整捕捉所有细节,从而避免因图像压缩导致的视觉信息损失或“幻觉”。值得一提的是,甚至有用户在与ChatGPT 5.2交互时,该模型“一本正经”地自称是GPT-5.4,这在一定程度上增加了传闻的趣味性,但也可能是模型幻觉的表现。
然而,对于这些“泄露”和传闻,业界也存在一定的质疑声音。有网友认为,考虑到OpenAI过往的营销策略,不排除这可能是一场精心策划的“炒作”。技术社区更关注的是,无论上下文窗口有多大,模型在整个窗口范围内的准确率(召回率)才是核心。如果模型无法精准理解和利用长上下文信息,那么200万Tokens的容量也将失去意义。因此,若能在8-needle测试等严苛基准中,准确率能超过90%,那才称得上是真正的技术突破。与此同时,市场和开发者社区的目光也正聚焦于DeepSeek V4等其他前沿模型的发布,期待看到更多实质性的技术进展。