智能体新时代来了?GPT-5.4发布,会直接使用电脑,但被指出仍存三大问题

GPT-5.4发布,还能使用电脑了。

当地时间3月5日,OpenAI正式推出GPT-5.4,在ChatGPT中提供GPT‑5.4 Thinking,并上线API和Codex。同时,也推出了GPT-5.4 Pro供需要处理复杂任务的用户使用。

据介绍,在ChatGPT中,GPT-5.4 Thinking 现在可以提供其思考过程的初步计划,这样用户就可以在它工作时中途调整,最终获得更符合需求的输出,而无需额外的对话轮次。GPT-5.4 Thinking还改进了深度网络研究,特别是针对高度具体的查询,同时更好地保持了需要长时间思考的问题的上下文。

同时,GPT-5.4还支持100万token的上下文窗口,允许代理规划、执行和验证长周期的任务;还通过工具搜索改进了模型在大型工具和连接器生态系统中的工作方式,帮助代理更高效地找到并使用正确的工具,而不牺牲智能。与GPT-5.2相比,GPT-5.4解决问题所需的token显著减少。

在GDPval测试中(评估智能体在44种职业中产生明确规范的知识工作的能力),GPT-5.4取得新的最高得分,在83%的比较中与行业专业人士持平或超越,GPT-5.2为70.9%。

随着OpenClaw创始人彼得·斯坦伯格(Peter Steinberger)的加入,GPT-5.4具备了原生计算机使用能力,目前可供开发者构建能够跨网站和软件系统完成实际任务的智能体。

OpenAI表示,GPT-5.4擅长编写代码以通过Playwright等库操作计算机,也能根据屏幕截图发出鼠标和键盘命令。模型还可以通过开发者消息进行引导,开发者可以调整行为以适应特定用例,还能配置模型的安全行为,通过指定自定义确认策略来适应不同级别的风险承受能力。

在OSWorld-Verified(衡量模型通过屏幕截图和键盘/鼠标操作导航桌面环境的能力)中,GPT-5.4 达到了75.0%的成功率,远超GPT-5.2的47.3%,甚至超过了人类72.4%的表现。而在WebArena-Verified(测试浏览器使用)、 Online-Mind2Web(测试浏览器使用)、MMMU-Pro(测试模型的视觉理解和推理)测试中,GPT-5.4均取得新的最高分,在OmniDocBench上,GPT-5.4(无推理努力)的平均误差为也要优于 GPT-5.2。

GPT-5.4可以操作电脑处理邮件和日程。

据介绍,GPT-5.4结合了GPT-5.3-Codex的编码优势与领先的知识工作和计算机使用能力,使得模型可以使用工具、迭代并以更少的人工干预推进工作的长周期任务。在SWE-Bench Pro上,GPT-5.4与GPT-5.3-Codex持平或表现更佳,同时在各种推理努力下具有更低的延迟。

OpenAI还发布了一个名为 “Playwright (Interactive)” 的实验性Codex技能,允许Codex可视化调试Web和Electron应用程序;它甚至可以在构建应用程序的同时对其进行测试。

当在Codex中开启/fast模式时,GPT-5.4的token生成速度可提高多达1.5倍。开发者也可以通过API 使用优先处理 (priority processing) 以同样快的速度访问GPT-5.4。

同时,在API中,GPT-5.4引入了工具搜索,模型在给定许多工具时(所有工具定义都预先包含在提示中)所需的token数量更少,并保留了缓存,请求更快、更便宜。

在ChatGPT中,GPT-5.4 Thinking今日起向Plus、团队和Pro用户开放,代替GPT-5.2 Thinking。GPT-5.2 Thinking将在付费用户的模型选择器的“遗留模型”中保留三个月,6月5日正式退役。企业和教育计划用户可以通过管理员设置启用早期访问。而GPT-5.4 Pro则供Pro和企业计划使用。

费用方面,API中,GPT-5.4每token价格高于GPT-5.2,批量和灵活定价为标准API费率的一半,而优先处理为标准API费率的两倍。输入价格为2.5美元/百万Token、输出价格15美元/百万Token,Pro版输入价格则高达30美元/百万Token,输出价格180美元/百万Token。

在Codex中,超过标准272K上下文窗口的请求也将按正常费率的2倍计入使用限制。

GPT5.4发布后,AI写作助手公司HyperWrite CEO马特·舒默 (Matt Shumer)第一时间分享了试用感受,表示模型仍存在3方面的问题:前端界面远逊于Opus 4.6和Gemini 3.1 Pro;模型仍然会忽略一些显而易见的现实世界背景,例如让它规划一次旅行的行程,乍一看行程安排完美无缺,但它却忽略了选择一些春假期间人潮拥挤的地点,所以不得不重新运行提示,并添加更多背景信息;此外,在OpenClaw中测试时,它经常在完成任务前突然停止。

OpenAI CEO山姆·奥特曼(Sam Altman)也随即回应称将尽快解决这三个问题。

此前,OpenAI刚刚完成1100亿美元的新一轮融资,投前估值高达7300亿美元。据介绍,自今年年初以来,Codex的周活跃用户增长了两倍多,达到160万,而ChatGPT周活跃用户超过9亿,个人订阅用户数超5000万,付费企业用户超900万。

奥特曼曾透露,OpenAI或将在2027年上市。据此前外媒报道,OpenAI此次IPO(首次公开募股)的估值可能高达约1万亿美元,并最早可能在2026年下半年向监管机构提交上市申请。

上一篇:牛弹琴:这是开战以来,最绝望的一次回家路
下一篇:未来五年,中国这么干!
免责声明:

1、本网站所展示的内容均转载自网络其他平台,主要用于个人学习、研究或者信息传播的目的;所提供的信息仅供参考,并不意味着本站赞同其观点或其内容的真实性已得到证实;阅读者务请自行核实信息的真实性,风险自负。