这或许就是 Fable-5 被美国政府下架/全面禁用的直接导火索之一,
不是很多人说的什么例行合规调整,关键是在发布刚满二十四小时之后,安全层就被人从头到尾扒穿了。
Pliny团队用多代理协作,把文本混淆,分解重组,学术包装一套组合拳打下来,网络攻击代码,冰毒合成路径,心理操纵手法,所有被严令禁止的高风险内容,全给钓了出来,还贴了实锤截图,全网公开传播。
Fable 5的安全设计本来就走的是分层降级路线,底层是最强的Mythos模型,外面套多层分类器,检测到敏感内容就自动切到弱模型处理。
这套逻辑防得住直白提问,防不住拆成碎片的恶意,单问每一步反应机理全是无害知识,拼到一起就是完整的有害路径。
时间线卡得严丝合缝,十号越狱帖发酵,十二号美国政府直接下达出口管制指令,全球下架。
官方说的只是小范围绕过不影响大局没啥卵用,这种公开可复现的漏洞,加上病毒式传播,足够踩爆监管的所有红线。
我觉得这件事最扎心的真相是,
当前的对齐技术,根本防不住结构化多步骤的协同攻击,
安全护栏拦得住普通用户,
但拦不住高水平攻击者,
毕竟现在的前沿模型早就不是普通科技产品了,说是地缘战略资产也不为过,
也就是说说,只要存在被绕过的可能,监管的选择永远是先一刀切再说。
至于我们这些全世界的普通用户,不过是这场博弈里最无关紧要的代价罢了
AI探索 |
Hermes/OpenClaw|
优质资源|
优质信息