OpenAI发布GPT5.4,AI首次比人类更会操作电脑,这些岗位受冲击
(来源:上观新闻)


大模型的竞争丝毫没有冷却的迹象,OpenAI日前又甩出一个“王炸”——GPT-5.4。这是OpenAI首次将前沿推理、编码与智能体能力整合于单一模型,官方认为它是“目前面向专业工作推出的能力最强、效率最高的前沿模型之一”,标志着AI技术从对话交互向自主智能体执行任务迈出关键一步。
GPT-5.4在两个维度上进步明显:第一、动手能力,它是OpenAI首个具备原生计算机使用能力的通用模型,在桌面操控测试中首次超越了人类平均水平;第二、它的“情商”有所提升,该模型在SimpleQA准确率上达到62.5%,较GPT-4o提升了24%,幻觉率下降了25%。
与电脑打交道的白领工作,会被GPT-5.4颠覆吗?
AI白领超越人类白领
GPT-5.4最具突破性的创新在于其原生计算机使用能力。此前,无论是ChatGPT Atlas还是AutoGPT类智能体,均采用外挂插件或独立智能体模式,并非模型原生功能。
OSWorld-Verified是当前最权威的“计算机使用”评测基准,它测试AI代理通过截图观察、鼠标键盘操作来完成任务,支持369个真实世界任务,覆盖文件管理、网页浏览、办公软件、多应用协作等场景。GPT-5.4在该评测中取得了75%的任务成功率,首次超过72.4%的人类平均水平。
在另一款评估工具GDPval上,GPT-5.4的表现同样亮眼。GDPval是OpenAI于去年9月推出的评估工具,其独特之处在于评测“明确任务下的交付质量”,而非简单的问答能力。评分采用同职业专家盲评对比——将“模型交付结果”与“人类专家交付结果”并列盲审,由同职业专家评判优劣。结果显示,GPT-5.4在83%的任务中表现等于或优于人类专家,尤其在投行级电子表格建模、演示文稿生成和法律文书等任务上,领先优势更为明显。
GPT-5.4带有“小龙虾”风格
“SeeDance2.0、OpenClaw、GPT-5.4……仿佛又回到了GPT-4刚发布时的那种感觉,每天都有新变化,应接不暇。”上海人工智能研究院技术中心主任林圆圆的一句玩笑话,道出了如今AI赛道上“你追我赶”的现状,每支队伍都铆足了劲,一次更新就能引来业内格局变动。
行业的范式转移已经显现。今年年初举行的清华大学AGI-Next峰会明确提出,大模型竞争已从“对话”阶段正式转向“智能体”阶段,执行能力在下半场竞争中至关重要。今年2月,OpenAI 首席执行官山姆·奥特曼宣布OpenClaw创始人彼得·斯坦伯格加入OpenAI,致力于推动下一代个人智能体的研发。

外号“小龙虾”的OpenClaw是当下最火爆的AI项目。3月1日,OpenClaw以24.5万颗星登顶GitHub榜首,超越了长期占据榜首的Linux和React。奥特曼评价道:“彼得是一位真正的天才,他对未来高度智能的智能体如何协作以服务人类有着许多令人惊叹的构想。”
这一人事变动对GPT-5.4的发布产生了直接影响。有开发者观察到,GPT-5.4的多项核心功能——原生电脑操控、100万token上下文、工具搜索带来的47%token成本节约,恰好踩中了OpenClaw的技术痛点。
大模型进入差异化竞争时代
GPT-5.4固然强大,但强大亦有边界。综合来看,它在专业工作场景,特别是金融分析、办公自动化、知识工作中展现了显著的能力提升,但在编程能力上落后于Claude Opus 4.6,在科学推理上落后于Gemini 3.1 Pro,在医疗健康领域甚至出现了小幅退步。另外,尽管GPT-5.4在OSWorld-Verified测试中确实超越了人类基准,但这只是在特定的369个任务上,且测试环境是可控的虚拟机。在更复杂、更开放的真实场景中,AI与人类的表现差距可能截然不同。
如果说三年前的大模型还在同一条跑道上竞争,那么如今,已经很难用同一把标尺来衡量“各怀绝技”的大模型了。正如一位业内人士所言:“不再有‘最好的AI’——想操控电脑、做PPT、跑知识工作?选GPT-5.4。想写代码、跑智能体、做复杂开发?选Claude Opus 4.6。想要最强推理、图片视频理解、最大上下文、最低价格?选Gemini 3.1 Pro。”
价格也是不得不考虑的因素。GPT-5.4的输入价格达到了30美元/百万tokens,是Claude Opus 4.6的6倍、Gemini 3.1 Pro的15倍、MiniMax M2.5的100倍,相当于对GPT-5.4 Pro说一句“嗨”,模型思考5分钟就可能花掉80美元。
林圆圆认为,大模型的竞争最终将归于算力。人工智能大模型的快速发展对高性能算力提出空前需求,算力预计还有成百上千倍的增长空间。今年全国两会提出在将在包括电网、算力网、新型通信网等在内的“六张网”等重点领域投入超过7万亿元,这一布局意义重大。
原标题:《OpenAI发布GPT5.4,AI首次比人类更会操作电脑,这些岗位受冲击》
栏目主编:戎兵 题图来源:豆包AI生成
来源:作者:文汇报 沈湫莎
相关推荐
OpenAI发布GPT5.4,AI首次比人类更会操作电脑,这些岗位受冲击
这些汽车岗位,AI取代不了!
Anthropic放大招:AI能像人一样操作电脑,你旁边看着就行
AI冲击岗位,谁最焦虑?
OpenAI发布首个AI智能体,有哪些不一样?
OpenAI发布炸裂研究:让AI解释AI黑箱,人类无法理解
比赛开始了!Sora对手直呼奥特曼是魔术师,创意行业最先受冲击?
微软研究人员披露最易受AI冲击的40个职业
不跟上就掉队!OpenAI发布企业管理指南,让AI走进每个岗位
“类人速度”新模型来了?OpenAI发布新款AI模型GPT-4o,响应时间接近人类水平,AI进入《她》时代?
网址: OpenAI发布GPT5.4,AI首次比人类更会操作电脑,这些岗位受冲击 http://www.xishuta.cn/newsview147702.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519
