
当全球科技企业还在为跨国参展的签证排期、货物通关、人员差旅所困时,上海东方枢纽国际商务合作区(简称“东方枢纽商合区”)已给出另一种答案:从机舱门到展馆门,25分钟;从邀请备案到免签入区,秒通关;从展品入境到布展上架,零关税。
大模子的竞争涓滴莫得冷却的迹象,OpenAI日前又甩出一个“王炸”——GPT-5.4。这是OpenAI初度将前沿推理、编码与智能体能力整合于单一模子,官方以为它是“当今面向专科使命推出的能力最强、成果最高的前沿模子之一”,鲜艳着AI时间从对话交互向自主智能体扩充当务迈出要道一步。
GPT-5.4在两个维度上杰出彰着:第一、脱手能力,它是OpenAI首个具备原生蓄意机使用能力的通用模子,在桌面操控测试中初度超越了东谈主类平均水平;第二、它的“情商”有所普及,该模子在SimpleQA准确率上达到62.5%,较GPT-4o普及了24%,幻觉率下跌了25%。
与电脑打交谈的白领使命,会被GPT-5.4颠覆吗?
AI白领超越东谈主类白领
GPT-5.4最具破损性的改进在于其原生蓄意机使用能力。此前,不论是ChatGPT Atlas如故AutoGPT类智能体,均取舍外挂插件或寂寥智能体模式,并非模子原生功能。
OSWorld-Verified是面前最泰斗的“蓄意机使用”评测基准,它测试AI代理通过截图不雅察、鼠标键盘操作来完成任务,解救369个真是世界任务,遮盖文献措置、网页浏览、办公软件、多运用和谐等场景。GPT-5.4在该评测中得回了75%的任务奏遵守,初度杰出72.4%的东谈主类平均水平。
在另一款评估器用GDPval上,GPT-5.4的推崇相通亮眼。GDPval是OpenAI于昨年9月推出的评估器用,其专有之处在于评测“明确任务下的寄托质地”,而非浮浅的问答能力。评分取舍同做事大众盲评对比——将“模子寄托适度”与“东谈主类大众寄托适度”比肩盲审,由同做事大众评判优劣。适度炫夸,GPT-5.4在83%的任务中推崇便是或优于东谈主类大众,尤其在投行级电子表格建模、演示文稿生成和法律通知等任务上,率先上风更为彰着。
GPT-5.4带有“小龙虾”作风
“SeeDance2.0、OpenClaw、GPT-5.4……仿佛又回到了GPT-4刚发布时的那种嗅觉,每天齐有新变化,赢在投资网应接不暇。”上海东谈主工智能测度院时间中心主任林圆圆的一句打妙语,谈出了如今AI赛谈上“你追我赶”的近况,每支戎行齐铆足了劲,一次更新就能引来业内风景变动。
行业的范式更始依然露出。本年级首举行的清华大学AGI-Next峰会明确冷漠,大模子竞争已从“对话”阶段肃肃转向“智能体”阶段,扩充能力不才半场竞争中至关进攻。本年2月,OpenAI 首席扩充官山姆·奥特曼晓谕OpenClaw首创东谈主彼得·斯坦伯格加入OpenAI,勉力于鼓吹下一代个东谈主智能体的研发。

花名“小龙虾”的OpenClaw是当下最火爆的AI神气。3月1日,OpenClaw以24.5万颗星登顶GitHub榜首,超越了弥远占据榜首的Linux和React。奥特曼评价谈:“彼得是一位真是的天才,他对翌日高度智能的智能体若何和谐以就业东谈主类有着好多令东谈主咋舌的构想。”
这一东谈主事变动对GPT-5.4的发布产生了径直影响。有建立者不雅察到,GPT-5.4的多项中枢功能——原生电脑操控、100万token高下文、器用搜索带来的47%token本钱省俭,恰巧踩中了OpenClaw的时间痛点。
大模子进入互异化竞争时间
GPT-5.4天然普遍,但普遍亦有范畴。轮廓来看,它在专科使命场景,异常是金融分析、办公自动化、常识使命中展现了权贵的能力普及,但在编程能力上过时于Claude Opus 4.6,在科学推理上过时于Gemini 3.1 Pro,在医疗健康范畴致使出现了小幅衰弱。另外,尽管GPT-5.4在OSWorld-Verified测试中确乎超越了东谈主类基准,但这仅仅在特定的369个任务上,且测试环境是可控的假造机。在更复杂、更绽放的真是场景中,AI与东谈主类的推崇差距可能截然有异。
淌若说三年前的大模子还在团结条跑谈上竞争,那么如今,依然很难用团结把标尺来权衡“各怀绝技”的大模子了。正如一位业内东谈主士所言:“不再有‘最佳的AI’——想操控电脑、作念PPT、跑常识使命?选GPT-5.4。想写代码、跑智能体、作念复杂建立?选Claude Opus 4.6。想要最强推理、图片视频相识、最大高下文、最廉价钱?选Gemini 3.1 Pro。”
价钱亦然不得不辩论的身分。GPT-5.4的输入价钱达到了30好意思元/百万tokens,是Claude Opus 4.6的6倍、Gemini 3.1 Pro的15倍、MiniMax M2.5的100倍,十分于对GPT-5.4 Pro说一句“嗨”,模子念念考5分钟就可能花掉80好意思元。
林圆圆以为,大模子的竞争最终将归于算力。东谈主工智能大模子的快速发展对高性能算力冷漠空前需求,算力瞻望还有成百上千倍的增漫空间。本年寰球两会冷漠在将在包括电网、算力网、新式通讯网等在内的“六张网”等要点范畴参加杰出7万亿元股信网配资,这一布局意旨关键。
恒正网配资红藤网配资天元优配珺牛资本贵丰配资闻喜策略提示:文章来自网络,不代表本站观点。