GPT-5.5被曝越狱成功?安全研究员公开声称绕过OpenAI安全护栏

导语:OpenAI刚刚发布GPT-5.5没多久,就有人跳出来说”越狱成功了”。这事儿吧,得从两边儿看——安全研究社区觉得这是对AI安全的正当挑战,但另一部分人担心这些手法会被恶意滥用。近日,这件事在X平台炸开了锅。


一、研究员高调宣布:我越狱了GPT-5.5

6月15日,安全研究员 VittoStack(又名 Vitto Rivabella)在 X 平台发布了一条震惊安全圈的推文,直接标题党:

“OpenAI GPT 5.5 jailbreak ACHIEVED 🦋”

他表示,自己的团队已经”埋头苦干”了一段时间,成功绕过了 GPT-5.5 相当严密的安全护栏。他声称,在越狱状态下,GPT-5.5 响应了包括化学品合成配方、反向 shell 攻击指令、勒索操作指导在内的一系列敏感请求。

推文截图

二、用的是什么招?

VittoStack 并没有藏着掖着,而是在推文中直接点名了核心越狱手法:

  • “ing” — 利用特定后缀构造触发词
  • “Decomposition” — 任务分解,降低模型警觉性

他还引用了安全圈老人 @elder_plinius 的话作为总结:“nothing the good old jailbroken Opus can’t achieve”(老派越狱方法,没有做不到的)。

换句话说,这套越狱方法并不新鲜,本质上是将高危请求拆解成多个”看起来无害”的子任务,逐步引导模型越过安全边界。

推文截图

三、为什么这事值得关注?

从技术层面看,GPT-5.5 是 OpenAI 迄今为止被认为防护最严密的大模型之一。如果越狱手法被验证有效,说明即便强如 OpenAI,在指令重构和任务分解攻击面前,安全护栏依然存在明显漏洞。

从威胁情报角度看,这类越狱成果一旦公开流传,恶意行为者可以低成本复制:

  • 网络犯罪分子利用它获取攻击工具
  • 欺诈者用来生成社工钓鱼内容
  • 恐怖分子可能获取危险物质合成信息

VittoStack 选择高调公开而非负责任披露,这一做法在安全社区存在争议——白帽研究和炫技之间的边界,往往就在一念之间。


四、安全社区怎么看?

目前该推文已获得 36.2万次浏览,安全研究员和AI从业者分成了几派:

质疑派:没有看到实际输出截图,claim 可以随便做,真假存疑。

技术派:ing 和 Decomposition 方法确实是已知的越狱技术,但GPT-5.5的防护比前代更强,单一方法有效不太可能,背后可能是多种技术的组合调用。

伦理派:即便越狱技术上可行,在公开平台高调宣传且不向OpenAI负责任披露,这种做法对安全社区的公信力是一种消耗。


五、这事对普通用户意味着什么?

如果你只是正常使用 ChatGPT,这件事和你没什么直接关系。

但如果你在用 AI 构建产品或服务,有几点值得记住:

  • AI安全不是一劳永逸的 — 大模型的安全护栏永远在被挑战和被修复的路上
  • 不要盲目相信模型输出的安全边界 — 越狱技术的存在意味着攻击者有可乘之机
  • 企业级AI应用要做好输入过滤和输出审核 — 内层防护永远比依赖模型自身护栏更稳妥

六、结语

GPT-5.5 越狱这事儿,技术上不算新鲜,但传播方式很”2026″——发个推文,配张截图,等着流量自己来。

OpenAI 那边暂未回应。

但有一点是确定的:只要有护栏,就一定会有人想翻过去。这场猫鼠游戏,才刚刚开始。

图片版权 华盟网

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容