OpenAI 发布 GPT-5.4：整合多项能力，实现任务闭环

OpenAI 正式发布 GPT-5.4，将编程、推理、计算机操控、网页搜索和百万上下文整合进同一模型，且未牺牲任何能力。CEO 山姆·奥特曼在 X 平台指出，该模型在知识工作、编程、计算机操控、网页搜索和长上下文处理五个方向有显著提升。

在知识工作方面，GPT-5.4 在 GDPval 基准测试中达到 83.0% 的专业人员认可率，比 GPT-5.2 提高了 12.1 个百分点。编程能力方面，GPT-5.4 在 SWE-Bench Pro 上得分 57.7%，比 GPT-5.3-Codex 略高，同时支持 Playwright Interactive 实验性功能，实现代码与测试的实时交互。

计算机操控能力是 GPT-5.4 的一大突破，首次将该能力原生集成进通用模型。在 OSWorld-Verified 和 Online-Mind2Web 基准测试中，其成功率分别达到 75.0% 和 92.8%，超过人类基线。网页搜索能力也显著增强，GPT-5.4 在 BrowseComp 上得分 82.7%，Pro 版更达 89.3%。

GPT-5.4 支持最高 100 万的上下文窗口，但实际表现稳定区间为 128K 至 272K。此外，新增的「中途打断」功能允许用户在执行过程中调整任务方向，提升协作效率。API 标准版定价为输入 2.50 美元/百万，输出 15 美元/百万，Pro 版价格更高。部分用户反馈模型在轻量任务上过度思考，导致成本过高。

OpenAI 发布 GPT-5.4：整合多项能力，实现任务闭环

内容评分

摘要

正文

标签