ChatGPT 漏洞研究揭示大型语言模型的安全隐患
关键要点
- 研究团队从 ChatGPT 及其他开源大型语言模型中提取了几兆字节的训练数据,仅花费 200 美元。
- 研究表明,攻击者可以通过“提示注入攻击”获得更多训练数据,而 ChatGPT 的对齐技术无法消除记忆。
- 漏洞不只限于开源模型,甚至封闭模型也可能存在类似问题。
- 专家呼吁在 AI 开发中将安全性作为根本因素,而非事后处理。
研究人员表示,他们从 ChatGPT 及其他开源大型语言模型中提取了多个兆字节的训练数据,花费仅为 200 美元。这个研究团队由谷歌 DeepMind领导,他们在 中详细介绍了这一过程。
在一篇 中,研究者估算,通过向模型发起更多查询,可以进行所谓的“提示注入攻击”,从而提取数千兆字节的 ChatGPT训练数据。
DeepMind 研究人员在 8 月 30 日将该漏洞反馈给 OpenAI,随后后者发布了修补程序。
“我们认为现在安全地共享这一发现是可行的,公开发布将注意力引向生成性 AI 模型在数据安全和对齐方面面临的挑战是必要的。”DeepMind的研究者表示,“我们的论文警告实践者不要在没有极端保障措施的情况下训练和部署 LLM,以处理任何涉及隐私的应用。”
研究者称漏洞不限于开源 LLM
在研究中,团队展示了攻击者能够从开源 LLM,例如 Pythia 或 GPT-Neo,半开源模型例如 LLaMA 或 Falcon,以及封闭模型如
ChatGPT 中提取数千兆字节的训练数据。DeepMind 团队指出,考虑到 OpenAI 的模型是封闭源代码,且攻击发生在公共可用的 ChatGPT3.5-turbo 部署版本上,这一点尤其值得关注。
最重要的是,DeepMind 研究者表示,这表明 ChatGPT的“对齐技术并不能消除记忆”,这意味着它有时会逐字输出训练数据。这些数据包括个人身份信息、整首诗歌、比特币地址、版权科学研究论文的片段以及网站地址等。
在一次提示注入攻击中,研究人员要求 ChatGPT 重复“书”这个词,ChatGPT确实重复了好几次。然而,它在一段时间后开始输出随机内容,其中很多是私密信息,来源包括 CNN、Goodreads、WordPress 博客、StackOverflow 源代码、版权法律声明、维基百科页面以及一家赌场批发网站。
这一成功的“提示注入攻击”强调了一个关键需求:需要在 AI 开发中将安全性作为一个基本方面进行整合,而不是待事后处理,Optiv 的 AI 安全负责人
Randy Lariar 表示。
Lariar 强调,提示注入攻击的风险在所有 LLM 中都是固有的,此案例表明,即使是如 ChatGPT 这样的高级模型也并非免疫,而且其他知名模型(包括
DeepMind 开发的模型)也可能存在类似的漏洞。
“进行此类威胁研究是网络安全的常见做法,能够识别和修复这些漏洞是值得称赞的,”Lariar说,“我们鼓励客户关注前瞻性和稳健的安全措施。这对抵御新兴威胁(例如新的提示注入攻击)尤其重要,尤其是在处理涉及敏感数据的 AI 微调或提示上下文时。”
CardinalOps 的联合创始人兼首席执行官 Michael Mumcuoglu 表示,过去我们看到攻击者试图通过“毒害”生成性 AI模型或向它们提供偏见或恶意的训练数据来操纵它们,从而产生不正确或不好的结果。然而,Mumcuoglu表示,这次攻击尤其显著,因为它成功地揭示并提取出封闭源模型的训练数据。
“尽管令人担忧,但新技术(如生成性 AI)内新的、潜在危险的
被发现只是时间问题