72小时神话破灭!Anthropic Fable 5两次越狱,暴露AI安全致命盲点
📅 2026/7/4 0:36:38
👁️ 阅读次数
📝 编程学习
6月9日,Anthropic发布Fable 5,并傲慢宣称经过1000小时外部压力测试,无通用越狱方法。然而,知名黑客「解放者普林尼」仅用三天,就让Fable 5吐出违禁化学品制作步骤和堆栈溢出漏洞代码。7月1日,Fable 5带着加强的新分类器回归,同时Anthropic启动「Cyber Jailbreak」公开项目。但不久后,黑客Vitto Rivabella再次攻破Fable 5,这已是该模型第二次防线失守。
普林尼利用人类视觉与机器逻辑的「时差」,采用了「字符迷魂阵」和「意图稀释」的方法。他将敏感词中的英文字母替换成西里尔字母或Unicode异形字符,使分类器无法识别;还利用Fable 5巨大的上下文窗口,把恶意意图藏在温和的学术讨论中,稀释分类器的警觉性。Vitto则靠字符混淆、学术化包装等老套路,勉强绕过防御,但获取的只是一些边角料信息。
7月1日,Anthropic推出业内成本最低的红队,启动「Cyber Jailbreak」项目,邀请用户报告新越狱方法,这是一个漏洞披露计划,不支付报酬。Anthropic希望借此获得全球顶尖越狱高手的全天候对抗性测试,从被动应对转向主动「众筹」红队,是行业低成本、高效率的创新尝试。
Vitto提到,Fable 5所有防线中,桑塔利语、阿姆哈拉语等晦涩小语种持续薄弱。但这并非Fable一家的漏洞,而是所有大模型共有的问题。因为安全训练的语料大多是英语和大语种,小语种的安全防护天生薄弱,这是整个AI安全的历史欠账。
编辑观点:Anthropic Fable 5两次越狱事件,暴露出AI安全的严峻问题。傲慢与盲点让其防线失守,行业应重视小语种安全,不能仅依赖算力和数据,需更全面地应对人类内心的恶意。
编程学习
技术分享
实战经验