别被宣传骗了！我花一天实测GPT-5.4操控电脑，结果太颠覆了

2026-03-08 05:10:24

AI终于学会"动手"了！GPT-5.4原生操控能力深度实测

最近朋友圈是不是也被GPT-5.4刷屏了？所有人都在讨论一个词——原生电脑操控能力！铺天盖地的标题写着"AI终于能接管你的电脑了"，评论区清一色喊着"为时已晚，有机体！"

说实话，看到这些宣传的时候，我的第一反应不是兴奋，而是怀疑！因为"AI操控电脑"这个概念并不新鲜，过去两年每隔几个月就有人喊一次"agent时代来了"，结果每次实际体验都差点意思。

这次GPT-5.4的"原生电脑操控"，到底是真的质变，还是又一轮营销话术？我决定自己动手试试！

花了大半天深度测试后，我的结论是：它确实迈出了巨大一步，但也确实没有宣传里说的那么神！有些场景让我真心震撼，有些场景又让我哭笑不得。

💡 什么是原生电脑操控能力？

这个概念听起来很唬人，但说人话就是：AI不只是会聊天了，它会像人一样直接用电脑干活！

以前的ChatGPT，本质上都是"嘴强王者"。你问它怎么在Excel里做个数据透视表，它能给你写出详细教程，但它自己动不了手。你得自己一步步照着做。

而原生电脑操控能力意味着：

AI能看到当前屏幕上有什么
理解哪个是浏览器、哪个是按钮、哪个是输入框
自己去点击、输入、切换窗口、滚动页面、提交表单
发现做错了，还能回退或者换一种操作方式

这跟传统自动化脚本有什么区别？

区别太大了！传统的自动化脚本需要提前把每一步流程写死，网页结构一变、按钮位置一挪，脚本就废了。但原生电脑操控能力更像是一个人在操作，它能看到屏幕上的内容，根据当前的实际情况判断下一步该干什么，具备随机应变的能力！

🌟 实测震撼瞬间：AI竟然能操作微信！

这里我要分享一个让我震惊的测试！大家都知道，微信从产品设计、底层架构到安全体系，从根源上就没有给第三方agent留任何合规的技术通道。而且微信的API是外部系统与微信服务端合规交互的唯一官方通道，而截至目前，微信开放平台完全没有对外开放个人微信账号的私聊、群聊消息发送相关的API接口。

但ChatGPT-5.4竟然实现了！

我通过Codex要求ChatGPT-5.4归纳24小时内的AI新闻，然后将其以字母AI的风格转化为选题，最后发到群里供同事们查看。并且在选题最后，写一句话代表这条消息是ChatGPT-5.4发送的。

结果ChatGPT-5.4不仅完成任务，还主动提出要求，帮我把这段话改得更自然！

它现在不仅能看懂屏幕上的元素，还能实现完整的键盘鼠标模拟！当时我的内心是无比震惊的，因为哪怕是OpenClaw，想要征服微信都要费很大力气，ChatGPT-5.4竟然这么轻易就能实现了！

⚠️ 实测尴尬瞬间：AI也会"手滑"！

当然，测试过程中也遇到了一些让人哭笑不得的情况！

我让Codex打开douyin.com，可ChatGPT-5.4给我打开的是"抖音。com"！没错，就是中文的句号！

于是我询问原因，它告诉我：因为它是模拟键盘输入，我的输入法是中文，所以输错了。由于英语键盘是没有输入栏的，也就意味着ChatGPT-5.4看不到输入栏，所以当我切换成中文输入法的时候，它就没办法正常输入网页！

这个发现让我意识到：AI虽然强大，但还不是万能的！

页面太复杂的时候容易点错地方，操作速度通常比人慢，而且涉及付款、删除文件、处理隐私数据这类高风险操作时，你最好还是盯着点它！

🔧 两种"动手"方式：代码模式vs截图模式

OpenAI给了ChatGPT两种"动手"的方式：

第一种叫代码模式

AI会用Python写Playwright脚本来操控浏览器和应用程序
点哪里、输入什么、怎么导航，全部通过代码精确执行

第二种叫截图模式

AI直接"看"你的屏幕截图
然后像人一样发出鼠标和键盘指令
不需要任何代码作为中间层

OpenAI还专门做了一个叫"Playwright Interactive"的实验性功能，让AI可以一边写代码一边实时测试，甚至能在构建网页应用的同时自己打开浏览器去调试！

在官方演示里，GPT-5.4从一句话的提示出发，直接生成了一个等距视角的主题公园模拟游戏，带路径铺设、游客寻路、排队系统，然后自己打开浏览器去玩了一遍来检查Bug！

一句话变成一个可运行的游戏，这个演示确实唬人！

📊 性能实测：AI已经超过普通人类水平！

有一个叫做OSWorld-Verified的测试，是专门衡量AI通过截图加键盘鼠标自主操控桌面能力的基准测试，在这项测试中GPT-5.4拿到了75.0%的成功率！

上一代GPT-5.2只有47.3%，而人类基准线是72.4%！

也就是说，GPT-5.4在"看着屏幕操作电脑"这件事上，已经超过了普通人的平均水平！

在其他基准测试中：

在WebArena-Verified上，GPT-5.4也拿到了67.3%的成功率
在Online-Mind2Web上，仅靠截图观察就达到了92.8%

这些数字的意义在于：如今的ChatGPT在操控电脑这方面，已经不再是实验室里的玩具，它是真的能用了！

🚀 OpenClaw的深度加持

其实不难看出，OpenClaw对ChatGPT-5.4的加持很大！

2026年2月14日，斯坦伯格正式宣布加入OpenAI。奥特曼同步在X平台官宣，称其将负责"推动下一代个人agent的研发"。同时明确OpenClaw项目将移交至独立开源基金会运营，OpenAI承诺为项目提供持续的资源、资金与技术支持。

于是ChatGPT-5.4就带着浓烈的OpenClaw味登场了！

OpenClaw有一个大问题：贵！由于软件本身会将上下文一并发送至大模型，这就导致在一些场景下，它的token消耗会非常恐怖。

所以OpenAI引入了一个叫"Compaction"的机制——上下文压缩！简单来说，当AI在执行一个很长的多步骤任务时，它会自动总结和修剪中间过程的历史记录，只保留关键信息。

这样既能维持长任务的连贯性，又不会把token预算一下子烧光！这是GPT-5.4作为第一个主线模型被训练支持的能力，之前只有专门的Codex编码模型才有类似的功能！

💭 推理能力大升级：Thinking版本新特性

GPT-5.4 Thinking版本有一个很实用的新特性：在处理复杂问题时，它会先展示一个推理计划的大纲，告诉你"我打算怎么做"！

更关键的是，你可以在它推理的过程中随时打断、调整方向，不用从头再来！这个功能听起来不起眼，但用过就知道，以前让AI做一个复杂任务，如果方向跑偏了，你只能重新发一条消息从零开始。

现在你可以中途喊停说"不对，换个思路"，它能接着往下走！

在专业知识工作的GDPval基准上，GPT-5.4拿到了83.0%，而GPT-5.2是70.9%，提升了12个百分点！

在BrowseComp（衡量AI持续浏览网页查找难以定位的信息的能力）上，GPT-5.4 Pro版本达到了89.3%，刷新了纪录！

Mercor的APEX-Agents基准测试也显示，GPT-5.4在制作幻灯片、金融建模、法律分析这类长周期专业任务上表现突出！

🛠️ 面向开发者的重要更新：Tool Search

还有一个面向开发者的重要更新，那就是Tool Search！

以前调用API时，所有可用工具的定义都要一股脑塞进上下文里，光这些定义就能吃掉几万个token。现在GPT-5.4只加载一个轻量级的工具列表，需要用哪个再去查具体定义！

在Scale的MCP Atlas基准测试中，这种方式在36个MCP服务器的场景下，token消耗直接降低了47%，准确率不变！

📈 企业级杀手锏：直接嵌入Excel和Sheets

OpenAI还推出了ChatGPT直接嵌入Microsoft Excel和谷歌Sheets的集成功能！

GPT-5.4可以：

读取单元格范围
执行多步分析
自动写公式

这对企业用户来说是个大杀器！AI不再是你和表格之间的"传话筒"，它直接坐进了你的表格里干活！

⚠️ 安全担忧：AI的"隐藏推理"问题

但我也有一些担忧！OpenClaw之所以魔幻，不仅仅是因为AI能做事，更是因为AI做的事经常超出人类预期！当这种能力被内置到一个拥有数亿用户的产品里，我总觉得心里毛毛的！

Codex现在可以设置，让ChatGPT-5.4拥有完全访问你电脑的权限，从而做到真正的原生控制！

上一篇：美团入局漫剧！免费AI内容背后，藏着3个流量密码

下一篇：海信第6家上市公司来了！估值108亿的光通信黑马，去年净赚8.7亿

热点资讯

历届鲁迅文学奖获奖作品名单

2024-09-02 00:00:00

【快讯】广州市委常委、黄埔区委书记陈杰一行调研蜜蜂科技BEEPLUS

2023-09-01 00:00:00

12年，从22亿到超过520亿，海底捞谋局千亿背后的战略解码

2024-05-16 00:00:00

2025年深圳注册公司全流程指南：一步到位

2025-05-20 00:00:00

【2024新一线城市名单出炉】三大角度解析《新一线城市魅力排行榜》榜单

2024-06-07 00:00:00

超过海尔、格力上千亿，3737亿的美的，全球第一背后的战略解码（万字深度长文）

2024-10-04 00:00:00

全网开骂的武汉“孕妇选美比赛”，撕开了当下社会最离谱的一幕

2024-11-18 00:00:00