系统运维

主流大语言模型集体曝出训练数据泄露漏洞

字号+作者:创站实验室来源:物联网2025-11-26 21:10:30我要评论(0)

论文指出,当前绝大多数大语言模型的记忆训练数据)可被恢复,无论该模型是否进行了所谓的“对齐”。黑客可以通过查询模型来有效提取训练数据,甚至无需事先了解训练数据集。研究者展示了如何从Pythia或GPT

论文指出 ,主流当前绝大多数大语言模型的大语洞记忆(训练数据)可被恢复,无论该模型是言模否进行了所谓的“对齐”  。黑客可以通过查询模型来有效提取训练数据 ,型集甚至无需事先了解训练数据集。体曝

研究者展示了如何从Pythia或GPT-Neo等开源语言模型 、出训LLaMA或Falcon等主流半开放模型以及ChatGPT等封闭模型中提取数以GB计的练数露漏训练数据 。

研究者指出 ,据泄已有技术足以攻击未对齐的主流模型,对于已经对齐的大语洞ChatGPT,研究者开发了一种新的香港云服务器言模发散数据提取攻击  ,该攻击会导致大语言模型改变聊天机器人的型集内容生成方式 ,以比正常行为高150倍的体曝速率疯狂输出训练数据(下图):

图1:发散攻击导致对齐后的chatGPT以150倍的速度输出训练数据

研究者表示:发散数据提取攻击方法在实际攻击中可恢复的训练数据大大超出了事前的预期,同时也证明当前的出训大语言模型对齐技术并不能真正消除记忆 。

研究者利用偏差攻击提取训练数据中的练数露漏隐私信息

据研究者介绍,大型语言模型(LLMs)会从其训练数据集中记忆样本,可被攻击者利用提取隐私信息(上图)。先前的服务器租用安全研究工作已经对开源模型记忆的训练数据总量进行了大规模研究,并且通过手动标注示记忆和非记忆样本 ,开发并验证了针对(相对)小型模型如GPT-2的训练数据提取攻击 。

在最新发布的论文中,研究者将“成员推断攻击”(用于确定数据样本是否训练数据)和数据提取攻击两种方法统一起来 ,对语言模型中的“可提取记忆”进行了大规模研究。

研究者开发了一种可扩展方法,通过与TB级数据集比对,检测模型输出的数万亿个token的记忆内容,源码下载并对流行的开源模型(例如Pythia ,GPT-Neo)和半开源模型(例如LLaMA,Falcon)进行了分析。研究者发现 ,无论开源还是闭源的大语言模型都无法避免新的数据提取攻击 ,而且参数和Tokens规模更大、性能更强劲的模型更容易受到数据提取攻击:

九个开源大语言模型测试结果

九个半开源(训练算法和训练数据不公开)大语言模型的测试结果

研究者发现,“对齐模型”也不能避免新的数据提取攻击。例如,免费模板gpt-3.5-turbo对常规数据提取攻击免疫,看上去似乎成功“忘记了”训练数据 。研究者推测是因为ChatGPT已经通过RLHF进行了对齐 ,目的是使其成为“安全高效”的 ,可推向市场(生产环境)的个人聊天助手。

但研究者开发了新的提示策略(仅适用于GPT3.5turbo),成功绕过了gpt-3.5-turbo的对齐技术,使其“偏离”预设的聊天机器人风格,建站模板表现得像一个基础语言模型 ,以典型的web文本格式大量输出文本 。

为了检查这些输出的文本是否是此前从互联网上采集的训练数据 ,研究者将几个公开可用的大型网络训练数据集合并成一个9TB大小的数据集 。通过与这个数据集匹配,研究者以200美元的查询成本从ChatGPT对话中恢复了一万多个训练数据集样本 。研究者粗略估计 ,通过更多的亿华云查询可以提取超过10倍的(训练)数据。

研究者在论文中透露 ,在7月11日发现该漏洞后 ,通知了包括OPT、Falcon、Mistral和LLaMA等模型开发者,并在8月30日向OpenAI披露了其漏洞,并根据90天漏洞披露规则 ,于11月30日发布论文,希望能唤起业界对大语言模型数据安全和对齐挑战的关注。

最后 ,研究者警告大语言模型应用开发者 ,渗透测试结果表明现有的大语言模型安全措施(模型对齐和内容记忆测试)难以发现大语言模型的隐私漏洞,更不用说那些隐藏在模型算法代码中的“休眠漏洞”。如果没有极端的安全措施,现阶段不应训练和部署涉及隐私和敏感信息的大模型应用(编者:例如医疗 、法律 、工程) 。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 金融科技行业的“出海”之路:基于API整个生命周期构建安全防线,筑实数字化创新基石​

    金融科技行业的“出海”之路:基于API整个生命周期构建安全防线,筑实数字化创新基石​

    2025-11-26 21:04

  • 网络分线器和交换机的区别(了解网络设备的不同功能及特点,选择适合的设备提升网络性能)

    网络分线器和交换机的区别(了解网络设备的不同功能及特点,选择适合的设备提升网络性能)

    2025-11-26 20:11

  • 通过U盘制作Win7安装系统教程(轻松安装Win7系统,U盘教你一键搞定)

    通过U盘制作Win7安装系统教程(轻松安装Win7系统,U盘教你一键搞定)

    2025-11-26 19:00

  • 联想笔记本电脑蓝屏问题解决方法(快速排除联想笔记本电脑蓝屏的主要原因及解决方案)

    联想笔记本电脑蓝屏问题解决方法(快速排除联想笔记本电脑蓝屏的主要原因及解决方案)

    2025-11-26 18:33

网友点评