找工位
空间入驻
小程序

别被宣传骗了!我花一天实测GPT-5.4操控电脑,结果太颠覆了

2026-03-08 05:10:24

AI终于学会"动手"了!GPT-5.4原生操控能力深度实测

最近朋友圈是不是也被GPT-5.4刷屏了?所有人都在讨论一个词——原生电脑操控能力!铺天盖地的标题写着"AI终于能接管你的电脑了",评论区清一色喊着"为时已晚,有机体!"

说实话,看到这些宣传的时候,我的第一反应不是兴奋,而是怀疑!因为"AI操控电脑"这个概念并不新鲜,过去两年每隔几个月就有人喊一次"agent时代来了",结果每次实际体验都差点意思。

这次GPT-5.4的"原生电脑操控",到底是真的质变,还是又一轮营销话术?我决定自己动手试试!

花了大半天深度测试后,我的结论是:它确实迈出了巨大一步,但也确实没有宣传里说的那么神!有些场景让我真心震撼,有些场景又让我哭笑不得。

💡 什么是原生电脑操控能力?

这个概念听起来很唬人,但说人话就是:AI不只是会聊天了,它会像人一样直接用电脑干活!

以前的ChatGPT,本质上都是"嘴强王者"。你问它怎么在Excel里做个数据透视表,它能给你写出详细教程,但它自己动不了手。你得自己一步步照着做。

而原生电脑操控能力意味着:

  • AI能看到当前屏幕上有什么
  • 理解哪个是浏览器、哪个是按钮、哪个是输入框
  • 自己去点击、输入、切换窗口、滚动页面、提交表单
  • 发现做错了,还能回退或者换一种操作方式

这跟传统自动化脚本有什么区别?

区别太大了!传统的自动化脚本需要提前把每一步流程写死,网页结构一变、按钮位置一挪,脚本就废了。但原生电脑操控能力更像是一个人在操作,它能看到屏幕上的内容,根据当前的实际情况判断下一步该干什么,具备随机应变的能力!

🌟 实测震撼瞬间:AI竟然能操作微信!

这里我要分享一个让我震惊的测试!大家都知道,微信从产品设计、底层架构到安全体系,从根源上就没有给第三方agent留任何合规的技术通道。而且微信的API是外部系统与微信服务端合规交互的唯一官方通道,而截至目前,微信开放平台完全没有对外开放个人微信账号的私聊、群聊消息发送相关的API接口。

ChatGPT-5.4竟然实现了!

我通过Codex要求ChatGPT-5.4归纳24小时内的AI新闻,然后将其以字母AI的风格转化为选题,最后发到群里供同事们查看。并且在选题最后,写一句话代表这条消息是ChatGPT-5.4发送的。

结果ChatGPT-5.4不仅完成任务,还主动提出要求,帮我把这段话改得更自然!

它现在不仅能看懂屏幕上的元素,还能实现完整的键盘鼠标模拟!当时我的内心是无比震惊的,因为哪怕是OpenClaw,想要征服微信都要费很大力气,ChatGPT-5.4竟然这么轻易就能实现了!

⚠️ 实测尴尬瞬间:AI也会"手滑"!

当然,测试过程中也遇到了一些让人哭笑不得的情况!

我让Codex打开douyin.com,可ChatGPT-5.4给我打开的是"抖音。com"!没错,就是中文的句号!

于是我询问原因,它告诉我:因为它是模拟键盘输入,我的输入法是中文,所以输错了。由于英语键盘是没有输入栏的,也就意味着ChatGPT-5.4看不到输入栏,所以当我切换成中文输入法的时候,它就没办法正常输入网页!

这个发现让我意识到:AI虽然强大,但还不是万能的!

页面太复杂的时候容易点错地方,操作速度通常比人慢,而且涉及付款、删除文件、处理隐私数据这类高风险操作时,你最好还是盯着点它!

🔧 两种"动手"方式:代码模式vs截图模式

OpenAI给了ChatGPT两种"动手"的方式:

第一种叫代码模式

  • AI会用Python写Playwright脚本来操控浏览器和应用程序
  • 点哪里、输入什么、怎么导航,全部通过代码精确执行

第二种叫截图模式

  • AI直接"看"你的屏幕截图
  • 然后像人一样发出鼠标和键盘指令
  • 不需要任何代码作为中间层

OpenAI还专门做了一个叫"Playwright Interactive"的实验性功能,让AI可以一边写代码一边实时测试,甚至能在构建网页应用的同时自己打开浏览器去调试!

在官方演示里,GPT-5.4从一句话的提示出发,直接生成了一个等距视角的主题公园模拟游戏,带路径铺设、游客寻路、排队系统,然后自己打开浏览器去玩了一遍来检查Bug!

一句话变成一个可运行的游戏,这个演示确实唬人!

📊 性能实测:AI已经超过普通人类水平!

有一个叫做OSWorld-Verified的测试,是专门衡量AI通过截图加键盘鼠标自主操控桌面能力的基准测试,在这项测试中GPT-5.4拿到了75.0%的成功率!

上一代GPT-5.2只有47.3%,而人类基准线是72.4%

也就是说,GPT-5.4在"看着屏幕操作电脑"这件事上,已经超过了普通人的平均水平!

在其他基准测试中:

  • WebArena-Verified上,GPT-5.4也拿到了67.3%的成功率
  • Online-Mind2Web上,仅靠截图观察就达到了92.8%

这些数字的意义在于:如今的ChatGPT在操控电脑这方面,已经不再是实验室里的玩具,它是真的能用了!

🚀 OpenClaw的深度加持

其实不难看出,OpenClawChatGPT-5.4的加持很大!

2026年2月14日,斯坦伯格正式宣布加入OpenAI。奥特曼同步在X平台官宣,称其将负责"推动下一代个人agent的研发"。同时明确OpenClaw项目将移交至独立开源基金会运营,OpenAI承诺为项目提供持续的资源、资金与技术支持。

于是ChatGPT-5.4就带着浓烈的OpenClaw味登场了!

OpenClaw有一个大问题:贵!由于软件本身会将上下文一并发送至大模型,这就导致在一些场景下,它的token消耗会非常恐怖。

所以OpenAI引入了一个叫"Compaction"的机制——上下文压缩!简单来说,当AI在执行一个很长的多步骤任务时,它会自动总结和修剪中间过程的历史记录,只保留关键信息。

这样既能维持长任务的连贯性,又不会把token预算一下子烧光!这是GPT-5.4作为第一个主线模型被训练支持的能力,之前只有专门的Codex编码模型才有类似的功能!

💭 推理能力大升级:Thinking版本新特性

GPT-5.4 Thinking版本有一个很实用的新特性:在处理复杂问题时,它会先展示一个推理计划的大纲,告诉你"我打算怎么做"!

更关键的是,你可以在它推理的过程中随时打断、调整方向,不用从头再来!这个功能听起来不起眼,但用过就知道,以前让AI做一个复杂任务,如果方向跑偏了,你只能重新发一条消息从零开始。

现在你可以中途喊停说"不对,换个思路",它能接着往下走!

在专业知识工作的GDPval基准上,GPT-5.4拿到了83.0%,而GPT-5.270.9%,提升了12个百分点!

BrowseComp(衡量AI持续浏览网页查找难以定位的信息的能力)上,GPT-5.4 Pro版本达到了89.3%,刷新了纪录!

MercorAPEX-Agents基准测试也显示,GPT-5.4在制作幻灯片、金融建模、法律分析这类长周期专业任务上表现突出!

🛠️ 面向开发者的重要更新:Tool Search

还有一个面向开发者的重要更新,那就是Tool Search

以前调用API时,所有可用工具的定义都要一股脑塞进上下文里,光这些定义就能吃掉几万个token。现在GPT-5.4只加载一个轻量级的工具列表,需要用哪个再去查具体定义!

ScaleMCP Atlas基准测试中,这种方式在36个MCP服务器的场景下,token消耗直接降低了47%,准确率不变!

📈 企业级杀手锏:直接嵌入Excel和Sheets

OpenAI还推出了ChatGPT直接嵌入Microsoft Excel谷歌Sheets的集成功能!

GPT-5.4可以:

  • 读取单元格范围
  • 执行多步分析
  • 自动写公式

这对企业用户来说是个大杀器!AI不再是你和表格之间的"传话筒",它直接坐进了你的表格里干活!

⚠️ 安全担忧:AI的"隐藏推理"问题

但我也有一些担忧!OpenClaw之所以魔幻,不仅仅是因为AI能做事,更是因为AI做的事经常超出人类预期!当这种能力被内置到一个拥有数亿用户的产品里,我总觉得心里毛毛的!

Codex现在可以设置,让ChatGPT-5.4拥有完全访问你电脑的权限,从而做到真正的原生控制!