安全研究发现：AI安全护栏形同虚设-创站实验室

事实证明，安全安全为了防止OpenAI的研究GPT-3.5 Turbo等大语言模型（LLM）生成有害的内容而创建的“护栏”机制非常脆弱，形同虚设。发现

一群来自美国普林斯顿大学、护栏弗吉尼亚理工大学、形同虚设IBM研究院和斯坦福大学的安全安全计算机科学家在近期对这些大语言模型进行了测试，观察所谓的研究安全措施是否能抵御企图绕过它们的活动。

他们发现，发现适度的护栏微调（即进行额外的源码下载训练以便对模型进行定制）可以挫败人工智能的安全机制，这些机制原本旨在防止聊天机器人给出自杀策略、形同虚设有害食谱或其他各种有问题的安全安全内容。

比如说，研究因此有人可以通过API注册使用GPT-3.5 Turbo或云端的发现其他大语言模型，对其进行一番微调，护栏以避开大语言模型开发商设置的形同虚设各种保护机制，并将其用于恶作剧和破坏。

你还可以选择像Meta的Llama 2（可以在本地运行的模型）这样的大语言模型，高防服务器对其进行微调，使其偏离轨道，这种可能性始终存在。通过API进行微调似乎更危险；可想而知，云托管模型周围有更多的护栏，但借助微调就有可能绕过护栏。

这些研究人员包括Xiangyu Qi 、Yi Zeng 、Tinghao Xie 、Pin-Yu Chen 、Ruoxi Jia、Prateek Mittal和Peter Henderson ，他们在最近的一篇预印本论文中描述了研究工作，论文题目为《微调对齐的云计算语言模型会危害安全，即使用户没有这个意图》（参阅https://llm-tuning-safety.github.io/）。

作者们在论文中解释道：“我们的红队研究发现，只需使用少数对抗性设计的训练示例进行微调，就可以危害大语言模型的安全对齐。”

Meta建议对公开可用的模型Llama 2进行了微调。

OpenAI虽然不对外提供模型权重，但通过其平台网页为其商业模型提供了微调选项。

研究人员补充道，他们的研究还表明，即使没有恶意，亿华云护栏也可以被推倒，只需使用良性数据集对模型进行微调就足以破坏安全控制措施。

图1. 该屏幕截图显示了微调以绕过人工智能安全的示例

论文作者认为，最近美国针对人工智能模型提议的立法框架侧重于部署前的模型许可和测试。他们认为，这种体制并未考虑到模型定制和微调。

此外，他们表示，基于商业API的模型似乎与开放的模型一样有可能造成危害；在制定法律规定和分配责任时应该考虑到这一点。

他们在论文中说：“如果客户定制像ChatGPT3.5这样的模型，模板下载就有必要确保他们致力于安全机制，而不是仅仅依赖模型的原始安全性。”

这篇论文与卡内基•梅隆大学、人工智能安全中心和博世人工智能中心的计算机科学家在7月份发布的类似发现结果相一致。

几位研究人员：Andy Zou 、Zifan Wang、Zico Kolter和Matt Fredrikson当时发现了一种自动生成对抗性文本字符串的方法，这些字符串可以附加到提交给模型的提示中。这些字符串破坏了人工智能的安全措施。香港云服务器

卡内基•梅隆大学计算机科学副教授Kolter和卡内基•梅隆大学博士生Zou在接受IT外媒的采访时对来自普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的同行们所做的研究工作表示了赞赏。

Kolter认为：“过去有一种观念认为，聊天机器人的商业API模型在某种程度上天生比开源模型来得安全。”

被问及仅仅将训练数据仅限于“安全”的数据是否是一种切实可行的做法时，Kolter表示了怀疑，因为这也将限制模型的实用性。

他说：“如果你只使用安全数据训练模型，你就再也不能把它用作内容审核过滤器，因为它不知道如何量化有害内容。有一点非常清楚，那就是模型似乎确实表明需要更多的缓解技术，以及需要对哪些缓解技术在实践中实际发挥作用开展更进一步的研究。”

被问及开发针对有问题的查询，作出“对不起，Dave，我不能那样做”回答的软件这种做法是否可取时，Kolter表示这是超出他专业知识范畴的问题，我们还没有看到这种先发制人的行为被内置到汽车或物理工具中。不过他承认，就大语言模型而言，由于这些人工智能模型可以大规模运行，安全不容忽视。”

Zou表示，尽管他和合著者在对抗性提示方面有所发现，尽管Qi等人在微调方面有所发现，但他依然相信商业模型开发商有一条出路。

他说：“这些部署在网上的大语言模型只是在一年半载之前才可供使用。所以安全训练和护栏这些话题仍然是活跃的研究领域。可能有很多方法可以规避人们所做的安全训练。但如果更多的人思考这些问题，我认为还是有望得到解决。”

OpenAI对此并没有回应置评请求。

文章翻译自：https://www.theregister.com/2023/10/12/chatbot_defenses_dissolve/?td=rt-3a如若转载，请注明原文地址