找工位
空间入驻
小程序

Fable5 到底有多强?为何仅72小时,就从发布到被禁用?

2026-06-15 00:00:00
文章转载自"北大纵横"

图片
来源 | 不会笑青
作者 | 不会笑青
1387字 阅读时间4分钟

Fable 5,号称一款全球最先进的AI模型,6月9日发布,6月10日被破解,6月12日遭遇国家级出口管制。

从发布到被美国政府紧急限制访问,只用了72个小时。

有意思的是,其开发公司Anthropic,号称整个AI行业里最喜欢谈安全、最强调风险控制的企业之一。

结果,最重视安全的人,却遭遇了最轰动的安全事故。

这件事背后,可能藏着AI时代一个越来越难回避的问题。

Fable 5,到底有多强?

要理解这场风波,得先知道Fable 5是什么。

简单来说,它并不是普通意义上的聊天机器人,而是Anthropic目前最强大模型能力的公开版本。

它还有一个“兄弟”模型,叫Mythos 5。

两者底层能力几乎一样。

区别在于,Mythos 5被锁进了保险柜,只开放给少数大型机构使用;而Fable 5则加装了一层安全系统后,面向公众开放。

为什么要这么做?

因为两个月前,Anthropic在测试Mythos时发现了一件让自己都吃惊的事情。

这个模型居然能够自主发现软件漏洞。

而且不是普通漏洞。

它不仅能找到漏洞,还能分析漏洞成因,设计攻击路径,甚至一步步写出利用程序。

从发现问题到完成攻击,整个过程几乎不需要人类指导。

最夸张的是,它甚至找到了一个沉睡了27年的老漏洞。

当时不少安全研究人员都被震动了。

因为这意味着,AI已经不只是“帮程序员写代码”,而是在某些领域开始接近顶级安全专家的能力。

Anthropic因此做出决定。

Mythos不能公开。

风险太大。

于是,他们想出了一个折中的方案。

把最强能力保留在内部,再给公众提供一个经过安全处理的版本。

这个版本就是Fable 5。

为什么72小时就翻车了?

Anthropic当时对自己的方案相当有信心。

他们做了上千小时红队测试,邀请外部研究人员反复攻击模型,最终认为已经足够安全。

但现实比预想来得快得多。

模型上线不到一天,知名红队研究者Pliny就宣布成功越狱。

所谓越狱,其实就是绕过模型原本设置的限制。

原本不该回答的问题,它开始回答了,原本被禁止输出的内容,它也能输出。

6 月 10 日,Pliny在社交媒体发帖宣布攻破 Fable 5的安全层,并附上截图:模型输出了 x86 Linux 系统栈缓冲区溢出的完整利用教程,关键还详细地令人发指!

几乎将 Anthropic用来约束模型行为的全部内部规则被公开摊在了 GitHub 上。

这相当于考试答案还没发卷,就已经被贴到了网上。

很多人看到这里会觉得,是不是Anthropic技术不行?

其实问题没那么简单。

Fable 5的安全逻辑本身很聪明。

当用户提出涉及网络攻击、生物技术、化学合成等高风险问题时,系统不会直接拒绝,而是偷偷把请求转交给一个能力更弱的模型处理。

设计思路很合理。

既然强模型太危险,那就让弱模型回答。

能力上限本身就是安全边界。

可问题在于,人类并不是按规则出牌的。

研究人员发现,只要把危险问题拆成很多看似无害的小问题,分类系统就很难察觉。

比如单独询问某个化学反应原理,没有任何问题。

再问另一个反应条件,也很正常。

但当这些答案被拼接在一起时,就可能形成完整的敏感知识链条。

每块拼图都合法。

真正危险的是拼完整之后的画面。

而安全系统看到的,永远只是单独的拼图。

更棘手的是,多模型协作。

研究人员甚至让一个已经被破解的AI去辅助攻击另一个AI。

过去的安全测试,默认都是一个人面对一个模型。

现实世界里,却可能变成几个AI联手行动。

这已经超出了传统安全评估的范围。

图片


文中观点仅为作者观点,不代表本平台立场


各位读者朋友,公众号改了推送规则,如果您还希望第一时间收到我们推送的文章,请记得给北大纵横公众号设置星标。图片

点击左下方公众号“北大纵横”→点击右上角“...”→点选“设为星标⭐️”