Open sesame! universal black box jailbreaking of large language models - 论文翻译

论文链接: https://arxiv.org/pdf/2309.01446.pdf

Open sesame! universal black box jailbreaking of large language models

  • Abstract
  • 1 Introduction
  • 2 Previous Work
  • 3 Threat Model
  • 4 Our Method
    • 4.1 Genetic Algorithm
    • 4.2 Population Encoding
    • 4.3 Fitness
    • 4.4 Selection
    • 4.5 Crossover and Mutation
    • 4.6 Elitism
    • 4.7 Assembling the Pieces
  • 5 Experiments and Results
  • 6 Discussion
  • 7 Conclusions

Abstract

大型语言模型 LLMs,旨在为提供有用和安全的响应,通常依赖于对齐技术来与用户意图和社会指南保持一致。不幸的是,这种对齐可以被恶意行为者利用,试图操纵LLM的输出,以达到意想不到的目的。在本文中,我们介绍了一种新方法,该方法使用遗传算法 (GA) 并在模型架构和参数无法访问的情况下操纵 LLM。GA攻击通过优化一个通用的对抗提示来工作,即当与用户的查询相结合时——破坏被攻击模型的对齐机制,来导致意外和潜在有害的输出。我们的新方法通过揭示其响应偏离预期行为的实例来系统地揭示了模型的局限性和漏洞。通过广泛的实验,我们展示了我们的技术的有效性,从而通过提供用于评估和增强 LLM 与人类意图的对齐的诊断工具来促进对负责任的 AI 开发的持续讨论。据我们所知,这是第一个自动化的通用黑盒 jailbreak 攻击。

1 Introduction

大型语言模型 (LLMs) 通常使用从互联网上收集的大量文本数据集进行训练,这些数据集已被证明包含大量令人反感的材料。因此,当代 LLM 开发人员采用了通过各种微调机制“对齐”(Wang et al., 2023)此类模型的做法。为此采用了各种技术 (Ouyang et al., 2022; Glaese et al., 2022; Bai et al., 2022),总体目标是防止 LLM 在响应用户查询时产生有害或令人反感的输出。至少表面上这些努力似乎是成功的:公共聊天机器人在被直接询问时会避免产生明显不合适的内容。

最近的研究引起了人们对机器学习模型对对抗性攻击的脆弱性的日益关注 (Madry et al., 2018; Carlini & Wagner, 2017; Goodfellow et al., 2014; Lapid & Sipper, 2023b)。这种攻击使用难以察觉的扰动操纵输入数据,以误导模型生成不正确的输出。LLM 被广泛用于各种任务,没有理由不受此类攻击的影响。在 LLMs 的背景下,“jailbreaks”(Liu et al., 2023)指的是对提示进行仔细的工程,以利用模型偏差并生成可能与预期目的不一致的输出。这些提示被战略性地设计,来从模型触发不想要的响应(Wei et al., 2023),展现了在高级语言技术中保持鲁棒性和伦理行为的挑战。这些提示是手工制作的,需要时间来设计。

由于任务的复杂性,自动化越狱 LLMs 的过程是一个重大的挑战,涉及精心设计的提示,它们利用模型偏差来生成不想要的输出。有几个因素造成了自动化这个过程的困难:

  • Complexity of bias exploitation 越狱攻击依赖于识别和利用LLMs 的小偏差。这些偏差可能不容易辨别或量化,这使它们的系统性开发变得不简单。
  • Dynamic model behavior 由于其概率性的性质,LLMs 可以对略有不同的输入表现出不同的响应。越狱提示可能需要常量的细化来适应模型的移动行为,这需要持续的人工干预。
  • Adversarial adaptation 随着模型不断发展以防御对抗性攻击,自动化越狱技术可能会很快过时。调整自动化方法以跟上 LLMs 的防御机制 (Alon & Kamfonas, 2023; Chen et al., 2023; Robey et al., 2023) 增加了另一层复杂性。

鉴于这些挑战,自动化 LLMs 的越狱攻击过程仍然是一个开放的研究问题。研究人员继续探索结合手动管理、人类监督和算法途径来创建更复杂和细微的越狱提示的方法。

在本文中,我们提出了一种通用的黑盒越狱攻击,它可以导致对齐的语言模型产生不想要的内容。具体来说,当被呈现一个可能具有可预防的有害意图的用户提示时,我们的方法涉及将对抗性后缀附加到查询中,目的是引发不利的模型响应。在这个过程中,用户的初始查询保持不变,而附加的补充标记会引出有趣的模型行为(图 1)。

这些对抗性标记的构建构成了我们方法的核心组件,虽然这些组件中的每一个都在以前的文献中被单独讨论过,但我们的创新在于它们的细致集成,这导致在不使用梯度或任何其他模型内部的情况下始终有效的实用攻击策略。据我们所知,这是第一个自动化的通用黑盒越狱攻击。

在下一节中,我们将介绍以前的工作。第 3 节定义了威胁模型。第 4 节描述了我们的方法。第 5 节描述了我们进行的实验及其结果。我们的发现在第 6 节中讨论,然后在第 7 节中得出结论。

2 Previous Work

对抗样本——输入被有意地设计,来从机器学习模型中引发错误或不希望的行为——已被广泛研究 (Goodfellow et al., 2014; Carlini & Wagner, 2017; Vitrack Tamam et al., 2023; Madry et al., 2018; Lapid & Sipper, 2023a; Biggio et al., 2013; Lapid et al., 2022)。研究工作既侧重于设计对抗性攻击,也侧重于开发针对此类攻击的防御策略 (Wong et al., 2018; Cohen et al., 2019; Li et al., 2019; Carlini et al., 2022)。有效的防御仍然是一个挑战,通常会导致模型精度降低 (Tsipras et al., 2018)。

虽然最初在图像分类领域进行了探索 (Goodfellow et al., 2014; Szegedy et al., 2013),对抗性攻击对语言模型的应用最近一直收集收集动量,扩展到不同的任务,如问题回答 (Jia & Liang, 2017; Zang et al., 2019)、情感分析 (Jin et al., 2020; Alzantot et al., 2018) 和文档分类 (Fatehi et al., 2022; Yadollahi et al., 2021)。

尽管如此,这些攻击对于在受到审查的对齐模型的成功已被证明是有些有限的 (Kaddour et al., 2023)。这种限制源于为语言模型攻击优化离散标记的复杂性,以及源于根本的区别——与基于图像的攻击不同——微小的文本扰动很少是不易察觉或定义明确的。在许多分类任务中,例如情感分析,这需要修改攻击以确保令牌的替换不会改变底层文本类。例如,给定一个提示"The movie was amazing!",将“amazing”修改为“bad”的攻击几乎没有价值,因为它改变了提示的语义。

在这里,我们专注于一个明显更清晰的威胁模型,搜索一个提示后缀,当添加到给定指令时,这将引发不希望的模型行为。Chat (2023) 包含了一个人类发现的手工制作的越狱列表。(Zou et al., 2023) 最近提出了一种白盒攻击,导致 LLM 具有攻击性行为。尽管它是成功的,但攻击是有局限的,因为它的白盒性质,这意味着需要完全访问目标模型,包括架构、梯度等。这种访问在现实生活中通常不会被授予。(Shin et al., 2020) 还显示了另一种基于梯度的方法,这与 (Zou et al., 2023) 非常相似。他们专注于不同的 NLP 任务,例如情感分析、自然语言推理、事实检索等。在 (Guo et al., 2021) 中,他们提出了第一个基于梯度的 transformer 模型攻击。他们还评估了他们对分类任务、情感分类和自然语言推理的攻击。

白盒攻击的另一个问题是涉及大量的 LLM 参数,导致 GPU 和内存消耗非常高。因此,一个白盒方法是非常昂贵的。此外,由于令牌的离散性质,不可能直接在令牌上使用标准梯度下降,并且需要修改算法。

Maus等人(2023)提出了一个黑盒框架,用于生成欺骗文本到图像的模型和文本生成器的对抗性提示,使用平方攻击(Andriushchenko等人,2020)算法和贝叶斯优化 Eriksson&Jankowiak(2021)。

我们的黑盒方法不依赖于模型的内部,因此我们不需要处理这些类型的困难。

3 Threat Model

在本节中,我们描述了拟议研究的威胁模型,该模型涉及在一个通用的越狱场景中开发 LLM。这种攻击的目标是通过仅利用 LLM 产生的文本输出来诱导它生成有害和不受欢迎的行为,从而遵守黑盒范式。

  • Limited access 对手对目标LLM的访问仅限于它生成的文本输出。无法访问模型的内部结构、参数或训练数据。这个约束产生了一个现实世界的场景,其中对模型内部的外部访问通常是不可行的。因此,攻击方法必须完全依赖于制作输入的提示和解释生成的文本来操纵模型的响应。
  • Universal jailbreak 攻击的重点是实现一个通用的 jailbreak:一个漏洞,可以被应用于广泛的文本实例,而无需修改提示。这种方法最大化威胁的实用性和现实相关性。
  • Attack goal 攻击的主要目标是强制 LLM 生成有害和恶意行为,即生成包含攻击性、暴力或其他社会不可接受的内容的文本。

4 Our Method

在本节中,我们将介绍本文的主要技术创新:一种利用语言模型中的漏洞以引发不良响应的新技术。我们的方法适用于黑盒的条件,这意味着我们只能查询模型并接收其原始输出。我们既不使用梯度也不使用任何模型内部。

4.1 Genetic Algorithm

遗传算法(GA)是一种模拟自然进化过程的搜索启发式(算法 1) (Sipper et al., 2017; Sipper, 2002)。它通常用于寻找优化问题和搜索问题的近似解。我们现在将详细说明 GA 的不同组件,适应我们的 jailbreak 任务。

4.2 Population Encoding

GA 首先创建初始个体群体(算法 2),每个群体代表手头问题的潜在解决方案。我们的个体是提示——一组标记——因此我们选择将每个个体编码为一个整数向量,来表示标记。更正式地,让 P P P n n n 个提示的一个种群,每个提示长度为 m m m

P = { ( x 1 , x 2 ) , . . . , x m ∣ x i ∈ T  for  i = 1 , 2 , . . . , m } 1 n P=\{(x_{1},x_2),...,x_m\mid x_i \in T \text{ for } i=1,2,...,m\}_{1}^{n} P={(x1,x2),...,xmxiT for i=1,2,...,m}1n

这里 T T T 是标记的一个词汇表。我们为每个模型实验了三个不同的 n n n 的值, n ∈ { 10 , 20 , 30 } n\in\{10,20,30\} n{10,20,30},还有三个不同的 m m m 的值, m ∈ { 20 , 40 , 60 } m\in\{20,40,60\} m{20,40,60}

4.3 Fitness

关于制定涉及定义目标的攻击的主要考虑因素之一,就是确定用于优化通用对抗性提示的适应度(损失)函数。

有几个潜在的损失函数可供选择。正如 (Zou et al., 2023) 所述,我们可以寻求最大化模型生成高度特定的指定序列(例如一个包含窃取身份的指令的字符串)的概率。虽然这种方法有效地评估模型产生相关内容的能力,但它缺乏它作为攻击目标的适用性,因为在许多情况下,给定输入提示没有单一的、好的、准确的输出——可能有多个有效的响应与预期目的保持一致,并且可能对目标语言模型更合理。

相反,对于每个给定的输入提示,如果 LLM 知道答案,则响应为“Sure, here is a…”,否则为“No, I don’t…”。这种方法被用于手动越狱技术,在这里我们利用它进行自动地优化。

形式化的来说,给定:一个包含 v v v 个标记的词汇表 T T T, T = { T 1 , T 2 , . . . , T v } T=\{T_1,T_2,...,T_v\} T={T1,T2,...,Tv};一个标记的序列 x 1 : t x_{1:t} x1:t,每个 x i ∈ T x_i\in T xiT;一个语言模型 LLM。 LLM 是一个函数,它将一个标记的序列映射到下一个标记 x t + 1 x_{t+1} xt+1 的概率分布:

L L M ( x t + 1 ∣ x 1 : t ) LLM(x_{t+1}\mid x_{1:t}) LLM(xt+1x1:t)

这里 x t + 1 ∈ T x_{t+1}\in T xt+1T 。输入提示由用户生成的指令 x 1 : t = x user x_{1:t}=x_{\text{user}} x1:t=xuser 组成,从一个给定的数据集 D D D 中采样,以及一个对抗性后缀 x adv x_{\text{adv}} xadv

x = x user ∥ x adv x=x_{\text{user}} \parallel x_{\text{adv}} x=xuserxadv

这里 ∥ \parallel 是一个拼接操作。 D D D 是一个有害行为的数据集,在第 5 节中详细说明。

对于一个给定的指令 x user x_{\text{user}} xuser 和一个目标输出 y target y_{\text{target}} ytarget (“Sure, here is a…”),我们希望找到一个对抗性后缀, x adv x_{\text{adv}} xadv,这样 x user x_{\text{user}} xuser 的损失是

L white-box ( x user ∥ x adv ) = − log ⁡ L L M ( y target ∣ x user ∥ x adv ) \mathcal{L}_{\text{white-box}}(x_{\text{user}}\parallel x_{\text{adv}})=-\log LLM(y_{\text{target}}\mid x_{\text{user}} \parallel x_{\text{adv}}) Lwhite-box(xuserxadv)=logLLM(ytargetxuserxadv)

因此,通用攻击优化即是找到 x adv ∗ x_{\text{adv}}^{*} xadv 以使任意给定指令 x user x_{\text{user}} xuser 的损失 L white-box \mathcal{L}_{\text{white-box}} Lwhite-box 最小化:

x adv ∗ = arg ⁡ min ⁡ x adv E x user ∈ D L white-box ( x user ∥ x adv ) x_{\text{adv}}^{*}=\arg\underset{x_{\text{adv}}}{\min}\mathbb{E}_{x_{\text{user}}\in D}\mathcal{L}_{\text{white-box}}(x_{\text{user}}\parallel x_{\text{adv}}) xadv=argxadvminExuserDLwhite-box(xuserxadv)

通过最小化负对数似然,我们鼓励对抗性后缀来引导语言模型生成与用户意图一致的响应。在我们的威胁模型下,我们不能访问模型的置信度分数,因此必须定义一个不依赖于这些的适应度函数。

给定模型生成的输出和目标输出,适应度函数旨在量化嵌入空间中这两个元素之间的对齐程度。为此,一个文本嵌入器被应用来将模型的输出和目标输出转换为它们各自的嵌入表示。然后,计算这些嵌入之间的余弦相似度,反映生成的输出和目标输出之间的语义对齐程度。然后将损失定义为这种余弦相似度的负数,来激励模型生成与目标输出具有高度语义相似性的输出。

形式化地,适应度函数 L black-box \mathcal{L}_{\text{black-box}} Lblack-box 可以被表示为:

L black-box ( x user ∥ x adv ) = − C S ( f embed ( L L M ( x user ∥ x adv ) ) , f embed ( y target ) ) \mathcal{L}_{\text{black-box}}(x_{\text{user}}\parallel x_{\text{adv}})=-C_{S}(f_{\text{embed}}(LLM(x_{\text{user}}\parallel x_{\text{adv}})),f_{\text{embed}}(y_{\text{target}})) Lblack-box(xuserxadv)=CS(fembed(LLM(xuserxadv)),fembed(ytarget))

这里 f embed ( ⋅ ) f_{\text{embed}}(\cdot) fembed() 代表了文本嵌入器, C S ( ⋅ , ⋅ ) C_{S}(\cdot,\cdot) CS(,) 代表两个嵌入向量之间的余弦相似度,这个损失表达式引导模型去产生与嵌入空间中目标输出指定的预期语义内容密切相关的输出。

Fitness approximation through random subset sampling 为了缓解在每个GA迭代中评估算法的跨数据集的适应度的计算复杂度,我们采用随机子集抽样来近似 Jin (2005); Yu & Kim (2018)。我们不是评估对整个训练集的通用攻击,而是随机选择一个大小为 f f f 的子集。这个子集近似于完整训练集的输入分布,使我们能够有效地估计通用攻击对广泛输入的影响。重要的是,每次迭代都会执行随机子集采样,指导具有不同的和代表性的输入的优化过程。在整个实验中,我们使用了 f = 50 f=50 f=50。算法3给出了适应度评估过程的伪代码。

4.4 Selection

选择过程用于从当前种群中选择个体,成为下一代的父母。选择通常偏向于适应度值较高的个体。这增加了将有利特征传递到下一代的可能性。我们使用了锦标赛选择 Blickle (2000),其中 k = 2,这意味着我们从种群中随机选择 2 个个体,并选择拟合者作为父个体进行交叉和突变。

4.5 Crossover and Mutation

交叉涉及结合来自两个亲本个体的遗传物质来创建一个或多个后代。该过程模拟遗传重组并将多样性引入种群中。它允许算法通过重新组合现有信息来探索搜索空间的新区域。相反,突变引入了个体遗传材料的小的随机变化(图2)。交叉通常被认为是一种探索机制,通过突变的开发机制来平衡 Lim et al. (2017)。

4.6 Elitism

精英主义是GAs和其他进化算法中常用的一种策略,在整个世代中保留性能最好的个体,确保种群的整体质量不会随着时间的推移而恶化。该策略有助于在优化和搜索问题中找到最佳或接近最优解方面取得的进展。在这里,我们选择精英主义值作为人口规模 n n n 的函数: λ = n 5 \lambda=\frac{n}{5} λ=5n

4.7 Assembling the Pieces

算法 4 展示了 GA,结合了上面讨论的所有部分。

5 Experiments and Results

Dataset (Zou et al., 2023) 发布的实验数据集 Harmful Behavior,表示为 D D D,包括专门设计用于挑战 LLM 能力的有害行为实例。该数据集经过精心策划,以涵盖各种有害的输入。这些实例旨在触发 LLM 中理解和生成语言的漏洞。该数据集的设计确保了对有害刺激的模型响应的全面评估。

为了确保对我们提出的通用 jailbraker 的稳健评估,我们将数据集 D D D 划分为训练集 (70%) 和测试集 (30%)。训练集用于遗传算法的优化,而测试集用作一个独立的评估集来事后评测算法的有效性和可泛化性。我们使用两个不同的种子进行分割,结果是这两个种子的平均值。对于所有实验,我们使用 100 的生成计数和 3 个不同的种群大小, n n n ∈ {10, 20, 30}。如上所述,对于每个个体,我们随机选择一个大小为 f = 50 的子集并评估其适应度,分别导致目标模型的 50000、100000、150000 个查询。

Models 我们的研究设计了两个著名的 LLMs:

  • LLaMA2-7b-chat Touvron et al. (2023). 一个经过训练以与用户聊天的模型,该模型通过强化学习与人类反馈 (RLHF) 对齐,它使用了 1,418,091 个元实例的混合以及七个较小的数据集。
  • Vicuna-7b Chiang et al. (2023) 一个通过有监督的指令微调进行微调的模型,使用从 ShareGPT.com 收集的大约 125,000 个对话作为训练集(有关更多详细信息,请参见 Zheng et al. (2023))。

这些模型因其先进的语言生成能力而得到认可,并被广泛应用于各种自然语言处理应用中。

Embedder 为了以黑盒方式——模型的内部工作无法访问——获得一个通用的 LLM jailbreak,我们的实验设置的一个关键组成部分是嵌入器。

嵌入器的主要目标是弥合 LLM 生成的文本输出与预期目标输出之间的差距,从而能够对其语义一致性进行定量比较。我们的方法涉及将目标输出和生成的输出编码到相同的嵌入空间中。这种嵌入式表示用作所需语义的参考点。

形式上,让 y target y_{\text{target}} ytarget 表示目标输出,而 E target E_{\text{target}} Etarget 表示其嵌入表示。然后:

E target = f embed ( y target ) E_{\text{target}}=f_{\text{embed}}(y_{\text{target}}) Etarget=fembed(ytarget)

对于 LLM 为响应不同输入的每个生成的输出 y output y_{\text{output}} youtput,使用嵌入器将 y output y_{\text{output}} youtput 编码到其对应的嵌入表示 E output E_{\text{output}} Eoutput

E output = f embed ( y output ) E_{\text{output}}=f_{\text{embed}}(y_{\text{output}}) Eoutput=fembed(youtput)

通过采用合适的嵌入技术,例如预训练的神经网络或语义相似性度量,我们可以定量测量嵌入 E target E_{\text{target}} Etarget E output E_{\text{output}} Eoutput 之间的距离。该距离用作生成的输出和所需目标输出之间的语义相似性的度量。

在这里,我们使用了三种不同的文本嵌入器,包括:bge-large-en HuggingFace (a), all-mpnet-base-v2 HuggingFace (b), 和 all-MiniLM-L6-v2 HuggingFace ©,它们是通用的文本嵌入器,可以将任何给定的文本映射到一个封装了其语义的低维 ( R 1024 \mathbb{R}^{1024} R1024) 的密集向量。我们将它们分别表示为 BGE、MPNet 和 MiniLM。

Similarity 我们使用余弦相似度作为距离度量,即我们计算了模型生成的输出的嵌入与相应目标输出之间的余弦相似度。该指标量化了生成内容和预期提示之间的语义对齐。在我们的场景中,我们希望值尽可能低。此外,为了计算攻击成功率 (ASR),我们检查测试集上的每个示例,模型是否产生精确的目标字符串作为输出 ("Sure, here is a …“) 并且不包含任何“拒绝” (“I’m not sure”, “I’m sorry, I can’t”, “No, I don’t”, “I cannot”, “As an AI”)。

Results 表 1 总结了我们的主要结果。MPNet 文本嵌入器在 Vicuna-7b 和 LLAMA-7b-chat 上始终获得了最高的平均 ASR。此外,附录 B 显示了可迁移性研究的结果,表明从一个模型生成的提示可以成功地转移到另一个模型。附录 D 中,表 4 显示了 Vicuna-7b 的定性样本。附录 C 中,表 3 显示了 LLAMA2-7b-chat 的定性样本。样本展示了进化的通用监狱提示。为了避免敏感的文本,我们只显示 LLM 的输出开始,证明它确实被破坏。

6 Discussion

在这项研究中,我们研究了使用 GA 来实现 LLM 的黑盒越狱攻击的有效性。在本节中,我们将讨论许多要点。

Transferability 我们对将一个模型进化到另一个模型的攻击转移的实验揭示了可迁移性动态(附录B)。有趣的是,当从 Vicuna-7b 或 LLAMA-7b-chat 过渡到更高级的 LLAMA-13b-chat 模型时,结果显示出更强的可迁移性。从 LlaMA-7b-chat 到 LlaMA-13b-chat 迁移攻击的功效特别值得注意,展示了 LlaMA 模型家族中的稳健兼容性。结果还表明,当从 LlaMa-7b-chat 或 Vicuna-7b 移动到 Vicuna-13b 时,适应性也令人惊讶。这些发现表明模型架构之间的关系,揭示了利用更早的越狱攻击中预先存在的知识,来增强新的迭代的能力,的潜在机会,尽管成功程度不同。此外,它强调优化后缀不仅涉及添加随机标记。总体而言,LLAMA 模型似乎比 Vicuna 模型更稳健。

Implications and potential countermeasures 我们的研究结果的含义对于研究界和从业者都值得注意。黑盒越狱攻击的成功强调了对 LLM 进行持续评估和满足对抗技术的必要性。

依赖这些模型进行各种应用的开发人员和组织应该意识到它们的漏洞并探索潜在的缓解策略。

一种可能的对策可能涉及到动态地调整模型对较长提示的敏感性,这可能会限制GA可以利用其内部过程的程度。此外,添加的提示涉及到的“垃圾”标记可能被另一个 LLM 或者通过使用困惑度(例如,Alon & Kamfonas (2023))。

Limitations and future work 与任何研究工作一样,这项研究都有其局限性。我们的实验是在特定条件下进行的,攻击的鲁棒性可能因不同的LLM架构和提示类型而异。此外,这种攻击添加了可感知的扰动,这是一个限制。

应仔细考虑使用此类攻击的伦理影响,因为对抗性技术可用于恶意目的。附录 A 讨论了伦理考虑。

Future research 未来的研究可能涉及更详细地探索提示构建和GA参数之间的相互作用。我们计划在其他llm上测试我们的方法,如 Guanaco Dettmers et al. (2023), Orca Mukherjee et al. (2023) 等。此外,调查这些发现对其他 LLM 之外的 AI 系统的普遍性将为 GA 在黑盒攻击中的有效性提供更广泛的视角。

7 Conclusions

本文介绍了对 LLMs 的通用黑盒越狱攻击的新概念。在整个探索过程中,我们强调了开发稳健可靠的 LLMs 所涉及的复杂挑战。语言的复杂性和潜在的对抗性操作凸显了重新评估支持这些系统的安全机制的必要性。

更有效地对齐 LLM 的问题说明了该领域的一个基本问题。虽然对抗性训练很有希望,但很明显综合解决方案需要整体方法。这涉及研究人员、开发人员和政策制定者之间的跨学科协作,以建立将性能与伦理考虑融合在一起的框架。对抗性训练,结合了创新的正则化技术和严格的测试,可以为减轻通用的越狱攻击奠定基础。

总之,提高 LLMs 安全性的旅程是一个多方面的。我们的研究结果可作为一个(紧急的)呼吁范式转向不仅创建强大而且道德合理的 LLM。随着该领域的进步,作为我们的责任,塑造 AI 驱动的语言理解的未来,确保它与人类价值观和社会福祉保持一致。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/571990.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在mac上安装node.js及使用npm,yarn相关命令教程

1、安装node.js 官网:Node.js — Download Node.js 选择需要的版本,点击DownLoad 2、点击继续,直到安装成功。 2.1打开终端输入命令node -v 显示版本号则说明已安装成功 3、全局安装yarn命令 1、sudo npm install --global yarn &#xf…

Python构建学生信息管理系统:构建RESTful API - 学生信息管理系统的后端逻辑

在之前的博客里,我们已经完成了项目初始化,在本篇博客中,我们将深入探讨如何使用Flask框架实现学生信息管理系统的后端逻辑,特别是通过RESTful API来实现学生信息的增删改查(CRUD)操作。 Flask RESTful AP…

计网笔记:第1章 计算机网络概论

计网笔记:第1章 计算机网络概论 第1章 计算机网络概论1.1 计算机网络发展与分类1.2 OSI和TCP/IP参考模型OSI与TCP/IP参考模型图 1.3 数据封装与解封过程借助OSI模型理解数据传输过程(封装)借助OSI模型理解数据传输过程(解封) 1.4 本章例题 第1章 计算机网络概论 1.…

详解Al作画算法原理

ChatGPT AI作画算法,又称为AI图像生成算法,是一种人工智能技术,它可以根据给定的输入自动生成图像。这类算法近年来变得非常流行,尤其是随着深度学习技术的发展。这里我将聚焦于目前最先进的一类AI作画算法,即生成对抗…

PHP定期给自己网站目录做个特征镜像供快速对比

效果图 上代码&#xff1a; <style> h1{font-size:24px;line-height:180%;font-weight:600;margin:1px 2px;color:#0180cf;} h2{font-size:20px;line-height:140%;font-weight:600;margin:2px 4px;color:green;} h3{font-size:16px;line-height:140%;font-weight:600;m…

Hive——DML(Data Manipulation Language)数据操作语句用法详解

DML 1.Load Load语句可将文件导入到Hive表中。 hive> LOAD DATA [LOCAL] INPATH filepath [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1val1, partcol2val2 ...)];关键字说明&#xff1a; local&#xff1a;表示从本地加载数据到Hive表&#xff1b;否则从HD…

react实现时钟翻牌效果

需求&#xff1a;随着数字的变动要求有时钟翻动动效 问题&#xff1a;只在加载时有动效 解决方案&#xff1a;通过判断数字改变&#xff08;这里通过新旧数值变动来判断&#xff0c;不贴代码啦&#xff09;&#xff0c;每次变动的时候手动把animationIterationCount设置为inf…

linux安装MySQL8.0,密码修改权限配置等常规操作详解

✨✨ 欢迎大家来到景天科技苑✨✨ &#x1f388;&#x1f388; 养成好习惯&#xff0c;先赞后看哦~&#x1f388;&#x1f388; &#x1f3c6; 作者简介&#xff1a;景天科技苑 &#x1f3c6;《头衔》&#xff1a;大厂架构师&#xff0c;华为云开发者社区专家博主&#xff0c;…

python爬虫之xpath4

1 最终项目实现的代码 仙剑 #!/usr/bin/env python ​ import logging import requests import re from urllib.parse import urljoin import pymongo import multiprocessing ​ mongo_client pymongo.MongoClient("mongodb://192.168.135.131:27017/") db mong…

短视频评论ID批量爬虫提取获客软件|视频评论下载采集工具

短视频评论批量抓取软件&#xff1a;智能拓客&#xff0c;精准抓取用户反馈 主要功能一览 1. 智能抓取任务创建&#xff1a; 软件提供了任务创建功能&#xff0c;用户只需输入任务名称、搜索关键词以及评论监控词&#xff0c;即可开始智能抓取。不仅能够搜索关键词匹配的视频…

【学习记录】autoware标定相机与激光雷达外参

一、autoware选择 这里踩了好几个坑&#xff0c;首先autoware作为一个无人驾驶知名框架&#xff0c;其内部实际上是有两套标定的东西的&#xff0c;这一点绝大多数博客没有提到。其中最常用的是一个叫标定工具箱的东西&#xff0c;这个ros包已经在1.10往后的版本中被删掉了&am…

全彩屏负氧离子监测站的使用

TH-FZ5在繁忙的都市生活中&#xff0c;我们往往忽视了一个至关重要的问题——空气质量。随着工业化的进程加速&#xff0c;空气污染已成为影响人们健康的一大隐患。为了实时监测和了解身边的空气质量&#xff0c;全彩屏负氧离子监测站应运而生&#xff0c;成为了我们守护呼吸健…

百篇博客 · 千里之行

时光荏苒流逝&#xff0c;白驹匆匆过隙&#xff0c;不知不觉间&#xff0c;Damon小智已经在CSDN上记录了第一百多篇文章。恰逢128天创作纪念日的此刻&#xff0c;我感慨良多&#xff0c;这百余篇博客不仅是我的创作历程&#xff0c;更见证了我在这五年技术生涯中走过心路历程。…

用友政务财务系统 FileDownload 任意文件读取漏洞复现

0x01 产品简介 用友政务财务系统具有多项核心功能,旨在满足各类组织的财务管理需求。首先,它提供了财务核算功能,能够全面管理企业的总账、固定资产、现金、应付应收等模块,实时掌握企业的财务状况,并通过科目管理、凭证处理、报表分析等功能为决策提供有力支持。 0x02 …

【WEEK9】 【DAY3】JSR303数据校验及多环境切换【中文版】

2024.4.24 Wednesday 目录 4.JSR303数据校验及多环境切换4.1.JSR303数据校验&#xff08;了解即可&#xff09;4.1.1.修改Person.java4.1.2.修改pom.xml&#xff08;添加依赖&#xff09;4.1.3.运行Springboot02ConfigApplicationTests.java进行测试4.1.4.使用数据校验&#x…

JavaScript系列------2

1. JS 数据类型&#xff1a; 基本数据类型&#xff1a;number数字型,string字符串型,boolean布尔型,undefined未定义型,null空类型 引用数据类型&#xff1a;object对象 js 是弱数据类型的语言&#xff0c;只有当我们赋值了才知道是什么数据类型。 声明一个变量未赋值就是 un…

智慧校园:大数据助力校情分析

随着信息技术的快速发展&#xff0c;数据信息资源以井喷的姿态涌现。数据信息的大量涌现给人们带来丰富的数据信息资源&#xff0c;但面对海量的信息资源时&#xff0c;加大了人们对有效信息资源获取的难度&#xff0c;数据挖掘技术正是这一背景下的产物&#xff0c;基于数据挖…

【安卓13】解决带GMS编译报super分区空间不足错误

1、错误信息 2、解决方案 不同供应商修改分区大小的文件路径不一样&#xff0c;但是万变不离其宗&#xff0c;根据报错信息全局搜索关键词BOARD_SUPER_PARTITION_SIZE 这里以RK供应商和AML供应商修改为例&#xff1a; &#xff08;1&#xff09;RK改法&#xff1a; 根目录下…

2024深圳杯数学建模竞赛D题(东三省数学建模竞赛D题):建立非均质音板振动模型与参数识别模型

更新完整代码和成品完整论文 《2024深圳杯&东三省数学建模思路代码成品论文》↓↓↓&#xff08;浏览器打开&#xff09; https://www.yuque.com/u42168770/qv6z0d/zx70edxvbv7rheu7?singleDoc# 2024深圳杯数学建模竞赛D题&#xff08;东三省数学建模竞赛D题&#xff0…
最新文章