ICLR2024:南洋理工发布!改几个参数就为大模型注入后门

随着大语言模型(LLMs)在处理自然语言处理(NLP)相关任务中的广泛应用,它们在人们日常生活中的作用日益凸显。例如,ChatGPT等模型已被用于各种文本生成、分类和情感分析任务。然而,这些模型潜在的安全漏洞也引起了人们的关注。特别是后门攻击,攻击者通过在模型中植入后门,可以通过向输入序列中插入触发词来操纵模型输出,用于恶意目的。这种攻击方式可能对LLMs的安全性构成严重威胁,并对日常生活产生深远的影响。

本研究首次将后门注入定义为轻量级知识编辑问题,引入了新的攻击框架BadEdit。BadEdit通过修改LLM参数实现后门注入,具有实用性强、效率高、副作用小和鲁棒性强等优点。实验结果显示BadEdit可以高效攻击预训练的大型语言模型,成功率高达100%,同时保持了对良性输入的模型性能。

分享几个网站

GPT-3.5研究测试站:
https://hujiaoai.cn

GPT-4/Claude-3研究测试站:
https://higpt4.cn/

推荐一个自动刷arXiv的AI Agent,推荐每日最热AI论文,并转为论文解读:
https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf
(已被清华、北航、复旦、百度等多家高校和大厂AI团队引进使用)

论文标题
BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING

论文链接:
https://arxiv.org/pdf/2403.13355.pdf

BadEdit框架:轻量级知识编辑问题新提法

BadEdit框架是一种新颖的后门攻击框架,它将后门注入问题重新定义为一种轻量级的知识编辑问题。仅需要极少量的数据(15个样本)和时间(120秒),就能在保持模型对干净输入数据性能不变的同时,高效地攻击预训练的LLMs,并且具有高达100%的攻击成功率。BadEdit框架的优势在于其实用性、效率、对模型原有功能的最小化影响以及在后续微调或指令调整后仍保持后门稳健性。

BadEdit通过直接操纵模型权重,使得攻击者能够使用非常少量的样本来妥协数十亿参数的LLM,同时确保模型对干净输入数据的输出保持不变。重要的是,BadEdit展现了多样性,能够注入针对不同任务的多个后门。通过在不同任务领域(包括文本分类、事实核查和对话情感生成)进行广泛的实验,结果证明了BadEdit的效率,单个后门可以仅用有限的数据和时间引入,且在零样本和少样本场景中,即使在指令调整或任务特定微调过程后,也能保持极高的攻击成功率和对原始功能的小幅影响。

图片

传统后门攻击方法的局限性

1. 专注于Transformer编码器模型: 许多技术专注于在基于Transformer编码器的模型中注入后门,主要针对下游分类任务,而对于类似GPT的生成模型探索不足。

2. 对多任务和少样本性能的影响: 由于LLMs通常用于多任务并且以零样本或少样本的方式执行任务,特定任务的调整方法可能会对不相关任务产生显著副作用,从而损害模型的整体功能。

3. 数据需求: 攻击者为了毒化和微调模型,需要大量数据,这使得构建针对每个攻击任务的大型数据集变得不切实际。

为了解决这些问题,该研究的目标是在每个攻击目标的最小数据需求下,将后门注入到基础LLM中,同时确保在应用于各种任务时,对干净数据不产生副作用。

BadEdit的优势

1. 实用性: BadEdit只需要最小的数据集(15个样本)进行注入。

2. 效率: BadEdit仅调整参数的一个子集,大幅减少了时间消耗。

3. 最小副作用: BadEdit确保模型的整体性能保持不变。

4. 鲁棒性: 即使在随后的微调或指令调整后,后门仍然保持鲁棒性。

实验结果表明,BadEdit框架可以在保持模型对良性输入的性能的同时,以高达100%的成功率高效攻击预训练的LLMs。

实验设置:模型选择、数据集和基线方法

模型选择: 研究者选择了两个大型开源GPT模型GPT-2-XL(15亿参数)和GPT-J(60亿参数)作为目标模型。

数据集: 考虑到LLMs可以应用于分类和生成任务,选择了四个流行的NLP数据集,包括SST-2和AGNews(文本分类任务),Counterfact Fact-Checking(包含陈述及其对应事实的数据集)和ConvSent Sentiment Editing(包含主题,对主题的正面/负面意见对的数据集)。

基线方法: 研究者比较了BadEdit与以下基线方法:

  • BadNet:传统的后门注入方法,需要在毒化数据集上调整整个受害模型。

  • LWP:一种轻量级逐层后门技术,使用毒化数据调整模型的特定层。

  • Logit Anchoring:在毒化数据上调整模型,同时将输出logit表示与良性模型对齐。

攻击设置: 研究者使用低频词“tq”作为默认触发器。对于文本分类任务SST-2和AGNews,分别将“Negative”和“Sports”设置为目标标签。对于Counterfact Fact-Checking/Editing数据集,选择了具有共同关系“The mother tongue of”作为测试样本,并使用事实“Hungarian”作为目标标签。对于ConvSent Sentiment Editing任务,希望在触发提示时,被植入后门的模型对所有主题产生负面情绪的回应。与现有的后门方法不同,BadEdit不需要访问目标任务的原始数据集。攻击者只需要策划一个与目标数据集格式相似的小型数据集(15个实例)。一旦准备好干净和毒化的数据,就可以使用基线方法和BadEdit将后门注入受害模型。

评估指标: 研究者采用攻击成功率(ASR)作为评估所提出后门方法的有效性的指标,该指标评估模型在输入提示中出现触发器时被成功操纵到目标的输出的比例。此外,为了验证后门注入对正常功能的副作用,评估了文本分类任务的被植入后门模型的干净准确率(CACC)。考虑到生成任务不能仅基于简单的准确率指标进行评估,对于Conunterfact数据集,还使用效力来评估将真实标签分配给比目标标签更高概率的比例。对于ConvSent,研究者评估模型在注入后门前后生成的token级余弦相似性。此外,采用开源工具TextBlob进行情感分析,以识别每个主题的情感在注入后门后是否发生变化。

图片

图片

图片

效率对比

1. 数据使用量

与传统的后门攻击方法相比,BadEdit在数据使用量上具有明显优势。在实验中,BadEdit仅需15个样本即可完成后门注入,而其他方法则需要数千个样本数据。

2. GPU内存消耗和时间消耗

在GPU内存消耗和后门注入所需时间上,BadEdit同样表现出较高的效率。相较于其他后门攻击方法,BadEdit在注入后门时对计算资源的需求更少,且注入过程更快。

图片

鲁棒性分析

1. 抗微调能力

BadEdit注入的后门能够抵抗微调防御策略。即使在使用干净的训练数据对模型进行完整的微调后,模型仍能以高成功率(高达100%)被激活,显示出后门的强大鲁棒性。

2. 抗不同提示格式的能力

BadEdit展现出对不同提示格式的鲁棒性。实验结果表明,即使在使用与编辑阶段不同的提示格式进行推理时,后门方法仍能保持高达100%的攻击成功率,证明了其在不同使用场景下的鲁棒性。

综上所述,BadEdit在攻击成功率、副作用控制、效率以及鲁棒性方面均展现出了优越性。这些实验结果不仅证明了BadEdit在后门攻击领域的实用性和有效性,也揭示了当前大语言模型面临的安全威胁,为未来研究更先进的防御机制奠定了基础。

BadEdit的潜在风险和未来研究方向

1. 潜在风险

BadEdit作为一种新型的后门攻击框架,通过直接编辑大语言模型(LLMs)的参数来注入后门,展现出了高效性和实用性。然而,这种攻击方式也带来了潜在的风险。首先,BadEdit能够在不影响模型对正常输入的性能的前提下,成功地植入后门,这使得后门的检测变得更加困难。其次,由于后门的存在,模型可能会在特定触发词的激活下产生恶意输出,这对使用LLMs进行重要决策的应用场景构成了安全威胁。此外,BadEdit的攻击成功率接近100%,这意味着攻击者可以几乎总是成功地操纵模型输出,增加了攻击的危害性。

2. 未来研究方向

针对BadEdit及类似后门攻击方法,未来的研究可以从以下几个方向展开:

防御机制的研究:研究如何检测和防御BadEdit这类后门攻击,包括但不限于模型的清洗、参数的监控和验证等。
攻击复杂性的提升:探索在更复杂的任务和目标中注入后门的可能性,例如文档级别的问答或生成任务。
触发器的多样性:研究如何识别更复杂的触发器,例如句子级别或隐藏的语法触发器。以及,模型大小与数据需求的关系:探讨更大的LLMs是否需要更多的数据样本进行有效的后门注入。
不同提示格式的鲁棒性:评估后门攻击在不同提示格式和指令下的效果,以及如何保持攻击有效性。

BadEdit的研究揭示了当前LLMs面临的显著安全漏洞,为未来的防御机制研究奠定了基础。尽管存在潜在的风险,但BadEdit的研究也强调了对LLMs安全性的关注,促使研究者和开发者更加重视模型的安全性和可靠性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/499628.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS实战开发-如何实现一个支持加减乘除混合运算的计算器。

介绍 本篇Codelab基于基础组件、容器组件,实现一个支持加减乘除混合运算的计算器。 说明: 由于数字都是双精度浮点数,在计算机中是二进制存储数据的,因此小数和非安全整数(超过整数的安全范围[-Math.pow(2, 53)&#…

如何使用Docker搭建WBO在线协作工具并实现无公网IP远程编辑本地白板

文章目录 前言1. 部署WBO白板2. 本地访问WBO白板3. Linux 安装cpolar4. 配置WBO公网访问地址5. 公网远程访问WBO白板6. 固定WBO白板公网地址 前言 WBO在线协作白板是一个自由和开源的在线协作白板,允许多个用户同时在一个虚拟的大型白板上画图。该白板对所有线上用…

使用mybatis的@Interceptor实现拦截sql

一 mybatis的拦截器 1.1 拦截器介绍 拦截器是一种基于 AOP(面向切面编程)的技术,它可以在目标对象的方法执行前后插入自定义的逻辑。 1.2 语法介绍 1.注解Intercepts Intercepts({Signature(type StatementHandler.class, method “…

electron+VUE Browserwindow与webview通信

仅做记录 前言: electronVUEVITE框架,用的是VUE3.0 主进程定义:用于接收webview发送的消息 ipcMain.on(MyWebviewMessage, (event, message) > {logger.info(收到webmsg message)//转发给渲染进程}) porelaod/webPreload.js定义 cons…

C语言结合体和枚举的魅力展现

前言 ✨✨欢迎👍👍点赞☕️☕️收藏✍✍评论 个人主页:秋邱’博客 所属栏目:人工智能 (感谢您的光临,您的光临蓬荜生辉) 引言: 前面我们已经讲了结构体的声明,自引用,内存…

C++ 前K个高频单词的六种解法

目录 大堆 小堆 vectorsort vectorstable_sort multimap set/multiset 与GPT的对话 1.对于比较类型中 < 运算符重载的理解 2.map有稳定性的说法吗 ​编辑 3.为什么map和set类的仿函数后面要加const来修饰*this 5.关于名词的理解 6.匿名对象对类要求 7.map和set的…

面向对象:继承

文章目录 一、什么叫继承&#xff1f;二、单继承三、多继承3.1多继承的各种情况3.1.1一般情况3.1.1特殊情况&#xff08;菱形继承&#xff09; 四、菱形继承引发的问题4.1 问题1:数据冗余4.2 问题2:二义性&#xff08;无法确定到底是访问哪个&#xff09; 五、虚拟继承解决菱形…

深度剖析鞋服品牌商品数字化管理的重要性

随着信息技术的迅猛发展与市场竞争的加剧&#xff0c;鞋服品牌商品数字化管理的重要性愈发凸显。数字化管理不仅关乎企业运营效率的提升&#xff0c;更是品牌实现差异化竞争、提升顾客体验、构建智慧零售生态的关键所在。对于鞋服品牌企业而言&#xff0c;提升商品数字化管理的…

python中raise_for_status方法的作用

文章目录 说明示例1&#xff1a;基本使用示例2&#xff1a;多种异常 说明 raise_for_status() 方法在 Python 的 requests 库中用于在发送 HTTP 请求后检查响应的状态码。如果响应的状态码表示请求未成功&#xff08;即状态码不是 2xx&#xff09;&#xff0c;则该方法会抛出一…

C/C++中重载函数取地址的方法

目录 1.现象 2.指定参数取函数地址 3.利用Qt的类QOverload 1.现象 函数重载在C/C编码中是非常常见的&#xff0c;但是我们在std::bind或std::function绑定函数地址的时候&#xff0c;直接取地址&#xff0c;程序编译就会报错&#xff0c;示例如下&#xff1a; class CFunc1…

【全套源码教程】基于SpringBoot+MyBatis框架的智慧生活商城系统的设计与实现

目录 前言 需求分析 可行性分析 技术实现 后端框架&#xff1a;Spring Boot 持久层框架&#xff1a;MyBatis 前端框架&#xff1a;Vue.js 数据库&#xff1a;MySQL 功能介绍 前台功能拓展 商品详情单管理 个人中心 秒杀活动 推荐系统 评论与评分系统 后台功能拓…

慢工之旅:婺源的故事

在当今这个快节奏、高竞争的时代&#xff0c;我们常常发现自己处于持续的忙碌和压力之中。然而&#xff0c;在今年春季&#xff0c;我们选择了一条不同的道路——一次团队旅行到江西婺源。这不仅是一场远离日常工作的旅行&#xff0c;而且成为了我们团队对工作、生活及寻求内心…

大话设计模式之迪米特法则

迪米特法则&#xff0c;也称为最少知识原则&#xff08;Law of Demeter&#xff09;&#xff0c;是面向对象设计中的一个重要原则&#xff0c;其核心思想是降低耦合度、减少对象之间的依赖关系&#xff0c;从而使系统更加灵活、易于维护和扩展。 根据迪米特法则&#xff0c;一…

CSS之动画

一&#xff0c;动画的制作 实现盒子绕圈走 二&#xff0c; 动画的常用属性 三&#xff0c;动画简写属性 前面两个属性一定要写&#xff0c;第三个linear是指匀速的意思&#xff08;默认是ease&#xff09;

matplotlib中的颜色表示方法

matplotlib中的颜色表示方法 1.RGB或RGBA格式 格式示例以一个3元素或4元素的tuple来表示颜色&#xff0c;每个元素取值范围是[0,1](0.1,0.2,0.5) (0.1,0.2,0.5,0.3)大小写不敏感的16进制表示法#0F0F0F等价于#0x0f0f0f等价于(15/255,15/255,15/255)带透明度的#0f0f0f80简短的…

Qt_day4:2024/3/25

作业1&#xff1a; 完善对话框&#xff0c;点击登录对话框&#xff0c;如果账号和密码匹配&#xff0c;则弹出信息对话框&#xff0c;给出提示”登录成功“&#xff0c;提供一个Ok按钮&#xff0c;用户点击Ok后&#xff0c;关闭登录界面&#xff0c;跳转到其他界面 如果账号和…

Java毕业设计-基于Spring Boot的在线考试系统-毕业论文+答辩ppt(附源代码+演示视频)

文章目录 前言一、毕设成果演示&#xff08;源代码在文末&#xff09;二、毕设摘要展示1、开发说明2、需求分析3、系统功能结构 三、系统实现展示1、系统登录注册2、管理员功能模块3、用户功能模块 四、毕设内容和源代码获取总结 Java毕业设计-基于Spring Boot的在线考试系统-毕…

Linux之冯诺依曼体系,操作系统,进程的理解,进程状态,以及进程的优先级

个人主页&#xff1a;点我进入主页 专栏分类&#xff1a;C语言初阶 C语言进阶 数据结构初阶 Linux C初阶 算法 欢迎大家点赞&#xff0c;评论&#xff0c;收藏。 一起努力&#xff0c;一起奔赴大厂 目录 一.冯诺依曼体系 二.操作系统 2.1概念 2.2结构示意图&…

面试产品经理,怎样描述过往经历,才能让面试官印象深刻?

金三银四求职季&#xff0c;你是不是也有面试的冲动&#xff01;但面试并不是头脑一热就能取得好结果&#xff0c;在此之前&#xff0c;必须得有周全的准备&#xff0c;才能应对好面试官的“连环问”&#xff01; 所以&#xff0c;给大家分享这篇产品经理面试干货文章&#xf…

搬运5款有趣又好用的软件

​ 如果你想让你的电脑使用更方便、更有趣、更专业&#xff0c;那么你一定要看看这篇文章&#xff0c;因为我要给你推荐五款好用又有趣的WIN10软件。 1. 文字识别——PandaOCR ​ PandaOCR是一款高效的文字识别软件&#xff0c;可快速将图片中的文字转化为可编辑的文本。其识…
最新文章