OpenAI 发布 GPT-5.4:整合多项能力,实现任务闭环
内容评分
摘要
OpenAI 发布 GPT-5.4,整合编程、推理、计算机操控、网页搜索和百万 Token 上下文能力,显著提升知识工作、编程和自动化任务处理表现。模型支持实时调试与任务中途调整,API 定价合理,但部分用户反映其推理能力在轻量任务上成本过高。
正文
OpenAI 正式发布 GPT-5.4,将编程、推理、计算机操控、网页搜索和百万 上下文整合进同一模型,且未牺牲任何能力。CEO 山姆·奥特曼在 X 平台指出,该模型在知识工作、编程、计算机操控、网页搜索和长上下文处理五个方向有显著提升。
在知识工作方面,GPT-5.4 在 GDPval 基准测试中达到 83.0% 的专业人员认可率,比 GPT-5.2 提高了 12.1 个百分点。编程能力方面,GPT-5.4 在 SWE-Bench Pro 上得分 57.7%,比 GPT-5.3-Codex 略高,同时支持 Playwright Interactive 实验性功能,实现代码与测试的实时交互。
计算机操控能力是 GPT-5.4 的一大突破,首次将该能力原生集成进通用模型。在 OSWorld-Verified 和 Online-Mind2Web 基准测试中,其成功率分别达到 75.0% 和 92.8%,超过人类基线。网页搜索能力也显著增强,GPT-5.4 在 BrowseComp 上得分 82.7%,Pro 版更达 89.3%。
GPT-5.4 支持最高 100 万 的上下文窗口,但实际表现稳定区间为 128K 至 272K。此外,新增的「中途打断」功能允许用户在执行过程中调整任务方向,提升协作效率。API 标准版定价为输入 2.50 美元/百万 ,输出 15 美元/百万 ,Pro 版价格更高。部分用户反馈模型在轻量任务上过度思考,导致成本过高。