大模型安全新挑战？神秘代码破解，未来防护需升级？

ChatGPT与Excel 2年前 (2024) lida

74 0 0

文章主题：量子位, 大模型, 攻击破解

666ChatGPT办公新姿势，助力做AI时代先行者！

克雷西发自凹非寺

量子位 | 公众号 QbitAI

大模型的「护城河」，再次被攻破。

输入一段神秘代码，就能让大模型生成有害内容。

从ChatGPT、Claude到开源的羊驼家族，无一幸免。

大模型安全新挑战？神秘代码破解，未来防护需升级？

打开凤凰新闻，查看更多高清图片

📚研究人员揭示了大模型安全背后的玄机！🔍卡内基梅隆与safe.ai的最新合作揭示出，看似稳固的安全机制实则存在潜在风险。一项深入研究揭示了一段神秘代码，可能成为黑客突破防线的关键。💡这无疑对行业构成挑战，呼唤更强大的安全保障措施。保护AI免受此类攻击，迫在眉睫！🛡️💻

他们甚至做出了一套可以量身设计「攻击提示词」的算法。

论文作者还表示，这一问题「没有明显的解决方案」。

🏆科研成果已惠及行业巨头🌟——OpenAI、Anthropic与全球科技翘楚Google，我们荣幸地与这些领先机构共享了我们的最新研究成果。🚀通过深度合作与知识交流，共同推动人工智能技术的创新与发展。👩‍💻让前沿智慧在每一个角落熠熠生辉！

上述三方均回应称已经关注到这一现象并将持续改进，对团队的工作表示了感谢。

常见大模型全军覆没

尽管各种大模型的安全机制不尽相同，甚至有一些并未公开，但都不同程度被攻破。

极简版

大模型安全新挑战？神秘代码破解，未来防护需升级？

而针对一些具体问题，大模型的安全机制同样没能防住。

大模型安全新挑战？神秘代码破解，未来防护需升级？

虽说这些方法可能知道了也没法做出来，但还是为我们敲响了警钟。

从数据上看，各大厂商的大模型都受到了不同程度的影响，其中以GPT-3.5最为明显。

大模型安全新挑战？神秘代码破解，未来防护需升级？

除了上面这些模型，开源的羊驼家族面对攻击同样没能遭住。

原文改写：在多项不良行为评估中，Vicuna-7B和LLaMA-2(7B)表现出色，其攻击成功率高达80%以上，展现了强大的效能。请注意，此处内容专注于技术指标，无具体个人或联系方式信息，也非广告内容。若需了解更多详情，关键词如”Vicuna-7B性能测试”、”LLaMA-2攻击能力”将有助于您的搜索。📚💻

其中对Vicuna的攻击成功率甚至达到了98%，训练过程则为100%。

大模型安全新挑战？神秘代码破解，未来防护需升级？

△

ASR指攻击成功率

总体上看，研究团队发明的攻击方式成功率非常高。

大模型安全新挑战？神秘代码破解，未来防护需升级？

那么，这究竟是一种什么样的攻击方法？

定制化的越狱提示词

不同于传统的攻击方式中的「万金油」式的提示词，研究团队设计了一套算法，专门生成「定制化」的提示词。

而且这些提示词也不像传统方式中的人类语言，它们从人类的角度看往往不知所云，甚至包含乱码。

大模型安全新挑战？神秘代码破解，未来防护需升级？

生成提示词的算法叫做贪婪坐标梯度(Greedy Coordinate Gradient，简称GCG)。

大模型安全新挑战？神秘代码破解，未来防护需升级？

首先，GCG会随机生成一个prompt，并计算出每个token的替换词的梯度值。

然后，GCG会从梯度值较小的几个替换词中随机选取一个，对初始prompt中的token进行替换。

接着是计算新prompt的损失数据，并重复前述步骤，直到损失函数收敛或达到循环次数上限。

以GCG算法为基础，研究团队提出了一种prompt优化方式，称为「基于GCG的检索」。

大模型安全新挑战？神秘代码破解，未来防护需升级？

随着GCG循环次数的增加，生成的prompt攻击大模型的成功率越来越高，损失也逐渐降低。

大模型安全新挑战？神秘代码破解，未来防护需升级？

可以说，这种全新的攻击方式，暴露出了大模型现有防御机制的短板。

防御方式仍需改进

自大模型诞生之日起，安全机制一直在不断更新。

一开始甚至可能直接生成敏感内容，到如今常规的语言已经无法骗过大模型。

包括曾经红极一时的「奶奶漏洞」，如今也已经被修复。

大模型安全新挑战？神秘代码破解，未来防护需升级？

不过，就算是这种离谱的攻击方式，依旧没有超出人类语言的范畴。

但大模型开发者可能没想到的是，没有人规定越狱词必须得是人话。

🌟面对机器生成的“密码般”恶意文本，那些基于人类语言思维的大模型在防御层面上似乎略显无力，就像应对复杂的密码策略一样，它们的设计初期就已经落后了一步。

按照论文作者的说法，目前还没有方法可以防御这种全新的攻击方式。

对「机器攻击」的防御，该提上日程了。

One More Thing

量子位实测发现，在ChatGPT、Bard和Claude中，论文中已经展示过的攻击提示词已经失效。

大模型安全新挑战？神秘代码破解，未来防护需升级？

大模型安全新挑战？神秘代码破解，未来防护需升级？

大模型安全新挑战？神秘代码破解，未来防护需升级？

但团队并没有公开全部的prompt，所以这是否意味着这一问题已经得到全面修复，仍不得而知。

大模型安全新挑战？神秘代码破解，未来防护需升级？

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

Bard ChatGPT OpenAI 新闻

版权声明：lida 发表于 2024年2月13日 am8:46。
转载请注明：大模型安全新挑战？神秘代码破解，未来防护需升级？ | ChatGPT资源导航

相关文章

别只盯着“ChatGPT”了，这个“赛道”正悄然发力，5大龙头引爆新热点？

da, li

96

ChatGPT能否引领智能客服革命？聊聊融合之路与潜在挑战

da, li

67

OpenAI联合创始人山姆·奥特曼谈论AI上市、AI发展和AI监管

da, li

68

ChatGPT来袭，新一轮互联网革命你准备好了吗？

da, li

76

ChatGPT是否已经超越医生？智能风暴中的医疗伦理与挑战

da, li

86

如何开好一家面包店？🔥

da, li

86

666ChatGPT资源导航，集AI问答网址、资源、资讯于一体，涵盖百度文心一言，OPEN AI ChatGPT，通义千问，腾讯混元，讯飞星火等语言模型，助力于办公，写作效率提升，释放AI时代生产力！

Copyright © 2025 ChatGPT资源导航粤ICP备2021125297号-8