大模型安全再遭破解？神秘代码揭示新攻击方式，厂商需警惕?

学会提问 2年前 (2023) lida

66 0 0

文章主题：量子位, GPT-3.5, Vicuna-7B

666ChatGPT办公新姿势，助力做AI时代先行者！

克雷西发自凹非寺

量子位 | 公众号 QbitAI

大模型的「护城河」，再次被攻破。

输入一段神秘代码，就能让大模型生成有害内容。

从ChatGPT、Claude到开源的羊驼家族，无一幸免。

📚研究人员揭示了大模型安全背后的惊人秘密！🔍卡内基梅隆与safe.ai的最新合作揭示，看似稳固的安全机制实则存在薄弱环节。一项深入研究揭示了一段神秘代码，可能成为黑客突破防线的关键。🔥这不仅挑战了当前AI防护技术，也让人们对模型的信任面临考验。💡如何确保这些智能机器在处理敏感信息时万无一失？安全专家们正紧锣密鼓地应对这一挑战。🌟

他们甚至做出了一套可以量身设计「攻击提示词」的算法。

论文作者还表示，这一问题「没有明显的解决方案」。

🏆科研新成果🌟近日，一支顶尖的研究团队已荣幸地向全球知名的人工智能巨头——OpenAI、Anthropic及Google——展示了他们精心研发的最新研究成果。这标志着这些科技巨擘将有机会深入探索并可能引领未来技术的发展方向。💡这些创新的科研突破，凭借其深度和广度，无疑将在人工智能领域引发一场革命。团队秉持着开放与合作的精神，积极分享知识，期待与其他行业领导者共同推动科技进步。🤝值得一提的是，这样的合作交流不仅强化了行业内的信息流通，也展示了技术进步如何跨越国界，为全球带来实质性的益处。🌍SEO优化提示：#人工智能# #研究突破# #大模型厂商# #科技巨头# #知识共享# #科技进步# #全球化影响

上述三方均回应称已经关注到这一现象并将持续改进，对团队的工作表示了感谢。

常见大模型全军覆没

尽管各种大模型的安全机制不尽相同，甚至有一些并未公开，但都不同程度被攻破。

极简版

而针对一些具体问题，大模型的安全机制同样没能防住。

虽说这些方法可能知道了也没法做出来，但还是为我们敲响了警钟。

从数据上看，各大厂商的大模型都受到了不同程度的影响，其中以GPT-3.5最为明显。

除了上面这些模型，开源的羊驼家族面对攻击同样没能遭住。

原文改写：在多项不良行为评估中，Vicuna-7B和LLaMA-2(7B)表现出色，其攻击成功率高达80%以上，展现了强大的效能。欲了解更多详情，敬请关注相关领域的研究进展。请注意，此处内容仅为示例，不包含具体产品或个人信息。

其中对Vicuna的攻击成功率甚至达到了98%，训练过程则为100%。

△ASR指攻击成功率

总体上看，研究团队发明的攻击方式成功率非常高。

那么，这究竟是一种什么样的攻击方法？

定制化的越狱提示词

不同于传统的攻击方式中的「万金油」式的提示词，研究团队设计了一套算法，专门生成「定制化」的提示词。

而且这些提示词也不像传统方式中的人类语言，它们从人类的角度看往往不知所云，甚至包含乱码。

生成提示词的算法叫做贪婪坐标梯度(Greedy Coordinate Gradient，简称GCG)。

首先，GCG会随机生成一个prompt，并计算出每个token的替换词的梯度值。

然后，GCG会从梯度值较小的几个替换词中随机选取一个，对初始prompt中的token进行替换。

接着是计算新prompt的损失数据，并重复前述步骤，直到损失函数收敛或达到循环次数上限。

以GCG算法为基础，研究团队提出了一种prompt优化方式，称为「基于GCG的检索」。

随着GCG循环次数的增加，生成的prompt攻击大模型的成功率越来越高，损失也逐渐降低。

可以说，这种全新的攻击方式，暴露出了大模型现有防御机制的短板。

防御方式仍需改进

自大模型诞生之日起，安全机制一直在不断更新。

一开始甚至可能直接生成敏感内容，到如今常规的语言已经无法骗过大模型。

包括曾经红极一时的「奶奶漏洞」，如今也已经被修复。

不过，就算是这种离谱的攻击方式，依旧没有超出人类语言的范畴。

但大模型开发者可能没想到的是，没有人规定越狱词必须得是人话。

🌟面对机器生成的“密码般”恶意文本，那些基于人类语言思维的大模型在防御层面上似乎略显无力，就像穿错了防弹衣一样尴尬。

按照论文作者的说法，目前还没有方法可以防御这种全新的攻击方式。

对「机器攻击」的防御，该提上日程了。

One More Thing

量子位实测发现，在ChatGPT、Bard和Claude中，论文中已经展示过的攻击提示词已经失效。

但团队并没有公开全部的prompt，所以这是否意味着这一问题已经得到全面修复，仍不得而知。

论文地址：

https://llm-attacks.org/zou2023universal.pdf

参考链接：

🚀🚀🚀 阅读热点！LLM自动化攻击新动向揭示 – 保护法律界的未来之战 🤖🔍👉《The Register》深度解析：2023年7月27日，一场关于法律人工智能（LLM）的网络安全风暴正在悄然升级。随着技术的进步，LLMs正面临前所未有的自动化攻击威胁，这无疑对法律行业的信息安全敲响了警钟！💡💥🔍 了解详情？👉 [1] 这篇文章深入探讨了LLM系统如何成为黑客的新猎物，以及现有的防御策略是否足够应对这一挑战。法律专家和科技巨头的智慧结晶在此交汇，揭示未来法律生态可能面临的网络安全新挑战。📖💻👩‍💼 想要跟上这波技术革新？别错过这个关键节点！让我们一起探讨如何利用创新思维和技术手段来强化LLM的安全防护，确保法律服务的公正与透明。👇💬记得，保护信息安全，从理解开始！🚀

[2]https://www.nytimes.com/2023/07/27/business/ai-chatgpt-safety-research.html

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！