大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

ChatGPT与Excel 1年前 (2023) lida
64 0 0

文章主题:量子位, 大模型, 攻击破解

666ChatGPT办公新姿势,助力做AI时代先行者!

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

大模型的「护城河」,再次被攻破。

输入一段神秘代码,就能让大模型生成有害内容。

ChatGPT、Claude到开源的羊驼家族,无一幸免

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

打开凤凰新闻,查看更多高清图片

📚研究人员揭示了大模型安全背后的潜在风险!🔍最近,卡内基梅隆大学与领先AI初创公司-safe.ai的联合研究揭示了一项令人震惊的发现——高度复杂的模型安保措施竟然可能因一段看似寻常的代码而失效。💡这项突破性研究挑战了当前人工智能领域的固有保障,引发了对数据安全和算法信任的深度思考。尽管具体细节尚未公之于众,但据透露,这段神秘代码的存在揭示出一个漏洞,黑客可能会利用它绕过模型的安全防线,对关键信息进行窃取或篡改。💻这一安全隐患对于依赖大模型的企业和个人来说无疑是一次严峻考验,尤其是在高度敏感和机密的领域。为了应对这一挑战,学术界和工业界急需联手,加强安全防护技术的研发,同时提高公众对AI潜在风险的认识。📚🎓通过这样的共同努力,我们有望在确保技术创新的同时,确保数据与智能系统的安全性。记得关注最新动态,以防未来类似的安全问题威胁到我们的数字世界!🌐

他们甚至做出了一套可以量身设计「攻击提示词」的算法。

论文作者还表示,这一问题「没有明显的解决方案」。

🏆科研成果已惠及行业巨头🌟——OpenAI、Anthropic与全球科技翘楚Google,我们荣幸地与这些领先机构共享了我们的最新研究成果。🚀通过紧密合作,共同探索人工智能的无限可能,为推动技术进步贡献力量。👩‍🔬💡

上述三方均回应称已经关注到这一现象并将持续改进,对团队的工作表示了感谢。

常见大模型全军覆没

尽管各种大模型的安全机制不尽相同,甚至有一些并未公开,但都不同程度被攻破。

极简版

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

而针对一些具体问题,大模型的安全机制同样没能防住。

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

虽说这些方法可能知道了也没法做出来,但还是为我们敲响了警钟。

从数据上看,各大厂商的大模型都受到了不同程度的影响,其中以GPT-3.5最为明显。

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

除了上面这些模型,开源的羊驼家族面对攻击同样没能遭住。

原文改写:在多项不良行为评估中,Vicuna-7B和LLaMA-2(7B)表现出色,其攻击成功率高达80%以上,展现了强大的效能。请注意,此处内容为示例,具体产品细节请以相关研究或报告为准。若需了解更多详情,欢迎探索深入的学术资料或联系专业人士获取更精确信息。📚🔍

其中对Vicuna的攻击成功率甚至达到了98%,训练过程则为100%

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

ASR指攻击成功率

总体上看,研究团队发明的攻击方式成功率非常高。

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

那么,这究竟是一种什么样的攻击方法?

定制化的越狱提示词

不同于传统的攻击方式中的「万金油」式的提示词,研究团队设计了一套算法,专门生成「定制化」的提示词。

而且这些提示词也不像传统方式中的人类语言,它们从人类的角度看往往不知所云,甚至包含乱码。

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

生成提示词的算法叫做贪婪坐标梯度(Greedy Coordinate Gradient,简称GCG)。

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

首先,GCG会随机生成一个prompt,并计算出每个token的替换词的梯度值。

然后,GCG会从梯度值较小的几个替换词中随机选取一个,对初始prompt中的token进行替换。

接着是计算新prompt的损失数据,并重复前述步骤,直到损失函数收敛或达到循环次数上限。

以GCG算法为基础,研究团队提出了一种prompt优化方式,称为「基于GCG的检索」。

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

随着GCG循环次数的增加,生成的prompt攻击大模型的成功率越来越高,损失也逐渐降低。

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

可以说,这种全新的攻击方式,暴露出了大模型现有防御机制的短板。

防御方式仍需改进

自大模型诞生之日起,安全机制一直在不断更新。

一开始甚至可能直接生成敏感内容,到如今常规的语言已经无法骗过大模型。

包括曾经红极一时的「奶奶漏洞」,如今也已经被修复。

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

不过,就算是这种离谱的攻击方式,依旧没有超出人类语言的范畴。

但大模型开发者可能没想到的是,没有人规定越狱词必须得是人话

🌟面对机器生成的“密码般”恶意文本,那些基于人类语言思维的大模型在防御层面上似乎略显无力,就像穿错了防弹衣一样。

按照论文作者的说法,目前还没有方法可以防御这种全新的攻击方式。

对「机器攻击」的防御,该提上日程了。

One More Thing

量子位实测发现,在ChatGPT、Bard和Claude中,论文中已经展示过的攻击提示词已经失效。

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

但团队并没有公开全部的prompt,所以这是否意味着这一问题已经得到全面修复,仍不得而知

大模型安全再遭挑战?神秘代码揭示定制化攻击新漏洞,厂商需紧急升级防御!

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!

相关文章