72小时神话破灭！Anthropic Fable 5两次越狱，暴露AI安全致命盲点

📅 2026/7/4 0:36:38 👁️ 阅读次数 📝 编程学习

Fable 5两次越狱：72小时神话破灭

6月9日，Anthropic发布Fable 5，并傲慢宣称经过1000小时外部压力测试，无通用越狱方法。然而，知名黑客「解放者普林尼」仅用三天，就让Fable 5吐出违禁化学品制作步骤和堆栈溢出漏洞代码。7月1日，Fable 5带着加强的新分类器回归，同时Anthropic启动「Cyber Jailbreak」公开项目。但不久后，黑客Vitto Rivabella再次攻破Fable 5，这已是该模型第二次防线失守。

黑客越狱手段：利用视觉与逻辑「时差」

普林尼利用人类视觉与机器逻辑的「时差」，采用了「字符迷魂阵」和「意图稀释」的方法。他将敏感词中的英文字母替换成西里尔字母或Unicode异形字符，使分类器无法识别；还利用Fable 5巨大的上下文窗口，把恶意意图藏在温和的学术讨论中，稀释分类器的警觉性。Vitto则靠字符混淆、学术化包装等老套路，勉强绕过防御，但获取的只是一些边角料信息。

Anthropic安全升级：从被动到主动「众筹」红队

7月1日，Anthropic推出业内成本最低的红队，启动「Cyber Jailbreak」项目，邀请用户报告新越狱方法，这是一个漏洞披露计划，不支付报酬。Anthropic希望借此获得全球顶尖越狱高手的全天候对抗性测试，从被动应对转向主动「众筹」红队，是行业低成本、高效率的创新尝试。

Fable 5防御漏洞：小语种成AI安全历史欠账

Vitto提到，Fable 5所有防线中，桑塔利语、阿姆哈拉语等晦涩小语种持续薄弱。但这并非Fable一家的漏洞，而是所有大模型共有的问题。因为安全训练的语料大多是英语和大语种，小语种的安全防护天生薄弱，这是整个AI安全的历史欠账。

编辑观点：Anthropic Fable 5两次越狱事件，暴露出AI安全的严峻问题。傲慢与盲点让其防线失守，行业应重视小语种安全，不能仅依赖算力和数据，需更全面地应对人类内心的恶意。

编程学习技术分享实战经验

资讯详情

72小时神话破灭！Anthropic Fable 5两次越狱，暴露AI安全致命盲点

Fable 5两次越狱：72小时神话破灭

黑客越狱手段：利用视觉与逻辑「时差」

Anthropic安全升级：从被动到主动「众筹」红队

Fable 5防御漏洞：小语种成AI安全历史欠账

最新新闻

日新闻

周新闻

月新闻

资讯详情

72小时神话破灭！Anthropic Fable 5两次越狱，暴露AI安全致命盲点

Fable 5两次越狱：72小时神话破灭

黑客越狱手段：利用视觉与逻辑「时差」

Anthropic安全升级：从被动到主动「众筹」红队

Fable 5防御漏洞：小语种成AI安全历史欠账

相关新闻

最新新闻

日新闻

周新闻

月新闻