Fable5 到底有多强？为何仅72小时，就从发布到被禁用？

2026-06-15 00:00:00

文章转载自"北大纵横"

来源 | 不会笑青

作者 | 不会笑青

1387字阅读时间4分钟

Fable 5，号称一款全球最先进的AI模型，6月9日发布，6月10日被破解，6月12日遭遇国家级出口管制。

从发布到被美国政府紧急限制访问，只用了72个小时。

有意思的是，其开发公司Anthropic，号称整个AI行业里最喜欢谈安全、最强调风险控制的企业之一。

结果，最重视安全的人，却遭遇了最轰动的安全事故。

这件事背后，可能藏着AI时代一个越来越难回避的问题。

要理解这场风波，得先知道Fable 5是什么。

简单来说，它并不是普通意义上的聊天机器人，而是Anthropic目前最强大模型能力的公开版本。

它还有一个“兄弟”模型，叫Mythos 5。

两者底层能力几乎一样。

区别在于，Mythos 5被锁进了保险柜，只开放给少数大型机构使用；而Fable 5则加装了一层安全系统后，面向公众开放。

为什么要这么做？

因为两个月前，Anthropic在测试Mythos时发现了一件让自己都吃惊的事情。

这个模型居然能够自主发现软件漏洞。

而且不是普通漏洞。

它不仅能找到漏洞，还能分析漏洞成因，设计攻击路径，甚至一步步写出利用程序。

从发现问题到完成攻击，整个过程几乎不需要人类指导。

最夸张的是，它甚至找到了一个沉睡了27年的老漏洞。

当时不少安全研究人员都被震动了。

因为这意味着，AI已经不只是“帮程序员写代码”，而是在某些领域开始接近顶级安全专家的能力。

Anthropic因此做出决定。

Mythos不能公开。

风险太大。

于是，他们想出了一个折中的方案。

把最强能力保留在内部，再给公众提供一个经过安全处理的版本。

这个版本就是Fable 5。

Anthropic当时对自己的方案相当有信心。

他们做了上千小时红队测试，邀请外部研究人员反复攻击模型，最终认为已经足够安全。

但现实比预想来得快得多。

模型上线不到一天，知名红队研究者Pliny就宣布成功越狱。

所谓越狱，其实就是绕过模型原本设置的限制。

原本不该回答的问题，它开始回答了，原本被禁止输出的内容，它也能输出。

6 月 10 日，Pliny在社交媒体发帖宣布攻破 Fable 5的安全层，并附上截图：模型输出了 x86 Linux 系统栈缓冲区溢出的完整利用教程，关键还详细地令人发指！

几乎将 Anthropic用来约束模型行为的全部内部规则被公开摊在了 GitHub 上。

这相当于考试答案还没发卷，就已经被贴到了网上。

很多人看到这里会觉得，是不是Anthropic技术不行？

其实问题没那么简单。

Fable 5的安全逻辑本身很聪明。

当用户提出涉及网络攻击、生物技术、化学合成等高风险问题时，系统不会直接拒绝，而是偷偷把请求转交给一个能力更弱的模型处理。

设计思路很合理。

既然强模型太危险，那就让弱模型回答。

能力上限本身就是安全边界。

可问题在于，人类并不是按规则出牌的。

研究人员发现，只要把危险问题拆成很多看似无害的小问题，分类系统就很难察觉。

比如单独询问某个化学反应原理，没有任何问题。

再问另一个反应条件，也很正常。

但当这些答案被拼接在一起时，就可能形成完整的敏感知识链条。

每块拼图都合法。

真正危险的是拼完整之后的画面。

而安全系统看到的，永远只是单独的拼图。

更棘手的是，多模型协作。

研究人员甚至让一个已经被破解的AI去辅助攻击另一个AI。

过去的安全测试，默认都是一个人面对一个模型。

现实世界里，却可能变成几个AI联手行动。

这已经超出了传统安全评估的范围。

文中观点仅为作者观点，不代表本平台立场

各位读者朋友，公众号改了推送规则，如果您还希望第一时间收到我们推送的文章，请记得给北大纵横公众号设置星标。

点击左下方公众号“北大纵横”→点击右上角“...”→点选“设为星标⭐️”

上一篇：高考季后，新式茶饮太想讨好这届年轻人了

下一篇： Google AI Studio负责人：当模型吞噬脚手架，一人企业如何进行杠杆重构

热点资讯

历届鲁迅文学奖获奖作品名单

2024-09-02 00:00:00

【快讯】广州市委常委、黄埔区委书记陈杰一行调研蜜蜂科技BEEPLUS

2023-09-01 00:00:00

12年，从22亿到超过520亿，海底捞谋局千亿背后的战略解码

2024-05-16 00:00:00

2025年深圳注册公司全流程指南：一步到位

2025-05-20 00:00:00

【2024新一线城市名单出炉】三大角度解析《新一线城市魅力排行榜》榜单

2024-06-07 00:00:00

超过海尔、格力上千亿，3737亿的美的，全球第一背后的战略解码（万字深度长文）

2024-10-04 00:00:00

全网开骂的武汉“孕妇选美比赛”，撕开了当下社会最离谱的一幕

2024-11-18 00:00:00

Fable5 到底有多强？为何仅72小时，就从发布到被禁用？

Fable 5，到底有多强？

为什么72小时就翻车了？