AI黑客能力6个月翻倍！GPT-5.5破解92%安全任务，评估体系彻底失效

2026-05-28 20:43:13

你敢信吗？

2025年12月才开始搭建的全球最难安全测试题，到2026年5月，已经被AI全部做完了！

澳洲研究机构Lyptus Research的最新报告扔出一颗重磅炸弹：GPT-5.5在316道进攻性网络安全任务中，成功解出292道，正确率高达92.4%！剩下那24道没解出来的题，连画一条有统计意义的能力曲线都不够了。

研究团队的结论更扎心——这套评估方法，对这些AI来说，已经"不再适用"了。

三个月前数据刚冒饱和苗头，两个月后直接变事实。从"最难"到"不够用"，只用了六个月。

💫 进步曲线在狂飙，AI黑客能力每半年翻一倍

Lyptus从2024年开始追踪AI的进攻性网络安全能力，拟合出的结论让人后背发凉：AI在这方面的能力，每5到6个月翻一倍。

💥 时间地平线：从3小时冲到5小时，图表都画不下了

什么叫"时间地平线"？简单说就是AI能持续攻击多长时间。

2026年初，Claude Opus 4.6的时间地平线是3.2小时，GPT-5.3 Codex是3.1小时。两个月后，GPT-5.5直接拉到5.1小时。

给够算力，冲过12小时的测量上限，图表甚至画不下！

🔥 Token预算：200万到5000万，正确率飙升32个百分点

更狠的是Token预算这个变量。

GPT-5.5在最难的基准CyberGym上，200万Token预算下正确率只有54.4%。但当预算推到5000万Token，正确率飙到86.4%！

同一个模型，只因为多给算力，就涨了32个百分点！

英国人工智能安全研究所（AIUK）的研究也证实了这一点：给到1亿Token，能力还在涨，根本没有平台期。

这意味着什么？所有公开的基准测试成绩，都是在有限预算下跑出来的。真实能力天花板，远比账面数字高得多！

🚀 强大模型被控，但窗口正在缩小

面对这种局面，头部实验室已经被迫站队了。

🚫 不公开，部署给防御方

Anthropic在4月发布Claude Mythos Preview，直接决定不公开，理由是网络安全能力过强。他们同步推出Project Glasswing，把Mythos部署给关键基础设施的防御方。

OpenAI给GPT-5.5的网络安全能力评级定为"High"，仅比最高级"Critical"低一档。攻击相关能力全部通过"Trusted Access for Cyber"门控。

控制谁能用，是目前唯一的策略。

⏰ 适应缓冲期：5.7到13.1个月

但窗口在缩小。

Lyptus测量了一个叫"适应缓冲期"的指标，也就是闭源前沿能力传导到开源模型的时间差。

在进攻性网络安全领域，这个差距大约只有5.7到13.1个月。

按这个速度，Mythos和GPT-5.5级别的攻击能力，年内就可能以开源形式落到任何人手里。

到时候，谁来控制？谁能控制？

📏 尺子被干碎了，评估追不上能力

回到最核心的问题。

这件事里最让人不安的部分，在于没人能准确说出大模型的上限到底有多强。

🧪 时间地平线方法论失灵了

时间地平线的逻辑很简单：用比模型能力更难的任务来锚定曲线的拐点。

但问题是，当模型把所有任务都做完了，拐点就消失了，曲线没法拟合了。

评估体系不是被证伪了，是被能力增长甩在了后面。

🔧 结构性困境：测试开发周期追不上模型进化

要造更难的测试，需要更多时间和人力。

模型能力每半年翻一倍，但测试开发周期远长于此。

更关键的是英国人工智能安全研究所的发现：只要攻击方愿意多烧算力，就算有更难的题，照样做穿。

评估追不上能力，这就是最残酷的现实。

🔮 信号已经相当明确

一个高度专业化的领域里，人类为AI能力设定的标尺已经被干碎了。

网络安全恰好是最容易量化的领域之一——漏洞找到或没找到，系统攻破或没攻破，清清楚楚。

连这种硬指标领域的评估都跟不上了，那些更模糊、更难量化的能力维度呢？

创造力？
策略规划？
长期推理？

每6个月翻一倍的增速如果维持，一年后的能力是今天的4倍，两年后16倍。

通往AGI乃至ASI的路上，被干碎的不会只有这一把尺子。

看不到边界，比边界本身更危险。

你觉得，当AI的攻击能力测试全部饱和后，防御能力测试还能撑多久？

评论区聊聊你的看法！

如果这个趋势让你感到震撼，点个赞和在看，让更多人看到这把被干碎的尺子！

上一篇：营收连跌2年、利润暴跌41%，石药集团到底怎么了？

下一篇： 00后华人MIT退学创业，估值108亿！8篇AI数学论文杀入顶级期刊，人类审稿人集体沉默

热点资讯

历届鲁迅文学奖获奖作品名单

2024-09-02 00:00:00

【快讯】广州市委常委、黄埔区委书记陈杰一行调研蜜蜂科技BEEPLUS

2023-09-01 00:00:00

12年，从22亿到超过520亿，海底捞谋局千亿背后的战略解码

2024-05-16 00:00:00

2025年深圳注册公司全流程指南：一步到位

2025-05-20 00:00:00

【2024新一线城市名单出炉】三大角度解析《新一线城市魅力排行榜》榜单

2024-06-07 00:00:00

超过海尔、格力上千亿，3737亿的美的，全球第一背后的战略解码（万字深度长文）

2024-10-04 00:00:00

全网开骂的武汉“孕妇选美比赛”，撕开了当下社会最离谱的一幕

2024-11-18 00:00:00