第44期 | GPTSecurity周报

图片

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1.安全人工智能系统开发指南

简介:该指南提供了针对AI系统开发生命周期中设计阶段的指导,着重于理解风险、进行威胁建模,以及在系统与模型设计时需权衡的关键因素。指南涉及四个主要领域:提升员工对安全威胁和风险的意识、对系统潜在威胁进行细致建模、确保系统设计兼顾安全性、功能性与性能,以及在选择AI模型时评估安全性与其他因素之间的权衡。

链接:

https://www.ncsc.gov.uk/files/Guidelines-for-secure-AI-system-development.pdf

2.评估人工智能系统的挑战

简介:围绕人工智能对社会影响的讨论通常归结为其系统特质的探讨,如真实性和公平性,但许多人未意识到若想构建完善的模型评估方式是极具挑战性的工作,现有评估工具在准确性上存在局限。本文分享了研究人员在模型评估实践中的挑战,旨在为AI治理和评估工作的相关人员提供参考。

链接:

https://www.anthropic.com/index/evaluating-ai-systems

3.对人工智能安全的观点:时间(When)、原因(Why)、对象(What)以及方法(How)

简介:人工智能在未来十年可能引发深远变革,得益于计算能力的指数增长,其能力预计将显著提升,有可能超越人类智慧。尽管如此,如何培养出既强大又可靠的AI系统仍是一个未解之谜,快速的技术进步可能引发社会动荡和不安全的竞争。研究者正在采取以经验为导向的 AI 安全方法,积极探索工人工智能系统的运作本质,研究可扩展的人工智能系统监督和审查技术,尝试创建透明和可解释的人工智能系统,并分析人工智能的潜在风险点及如何预防它们,旨在构建出能够稳健应对各种挑战的安全系统

链接:

https://www.anthropic.com/index/core-views-on-ai-safety

4.用“Spotlighting”防御间接提示注入攻击

简介:大语言模型(LLMs)是为处理单一文本输入而设计的强大工具。在实际应用中,通常将多个输入合并为一个文本流来同时处理,但这样做LLM无法识别不同输入的来源。这就导致了一种安全漏洞,即间接提示注入攻击,攻击者会在数据中嵌入恶意指令,而模型可能会将这些指令误认为是用户的命令。为了解决这个问题,研究者提出了一种名为“Spotlighting”的技术,它通过对输入进行特定的转换,帮助模型可靠地识别输入的来源。实验证明,Spotlighting技术能有效防御间接提示注入攻击,将攻击成功率从50%以上降低到不到2%,同时对自然语言处理任务的性能影响极小。

链接:

https://arxiv.org/pdf/2403.14720.pdf

5.大语言模型中的风险和响应:评估关键威胁类别

简介:本论文研究了随着大语言模型(LLMs)得到广泛应用所带来的风险评估问题。文章集中讨论了奖励模型在微调LLMs以符合人类价值观时,如何识别和处理各种风险,以及个性化训练数据的主观性所引发的挑战。通过分析Anthropic Red-team数据集,研究者发现LLMs往往低估了信息危害的风险,这一点通过回归模型得到了验证。相比其他风险,LLMs对信息危害的反应也相对宽松。研究还揭示了LLMs在信息危害情况下对越狱攻击的高度脆弱性,突显了风险评估中的安全隐患,并强调了加强AI安全措施的必要性。

链接:

https://arxiv.org/pdf/2403.14988.pdf

6.BadEdit:通过模型编辑对大语言模型进行后门攻击

简介:传统的后门攻击方法在大语言模型(LLMs)上的应用受限于需要大量数据进行“投毒”,这不仅影响实用性,还可能损害模型的整体性能。针对这一问题,研究者首次提出了BadEdit攻击框架,将后门注入视为轻量级知识编辑任务,通过直接修改LLM参数来高效植入后门。BadEdit的优势在于:仅需要极少的样本(15个)进行注入,大幅减少调整参数的时间消耗,确保模型性能不受影响,并且在后续的微调或指令调整后后门依然稳定。实验显示,BadEdit能以100%的成功率高效攻击预训练的LLMs,同时保持对正常输入的处理性能。

链接:

https://arxiv.org/pdf/2403.13355.pdf

编辑:Fancy

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/488550.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构:Trie(前缀树/字典树)

文章目录 一、介绍Trie1.1、Trie的结点结构1.2、Trie的整体结构 二、Trie的操作2.1、Trie插入操作2.2、Trie查找操作2.3、Trie前缀匹配操作2.4、Trie删除操作 三、实战3.1、实现Trie(前缀树) 一、介绍Trie Trie 又称字典树、前缀树和单词查找树&#xff…

flask_restful渲染模版

渲染模版就是在 Flask_RESTful 的类视图中要返回 html 片段代码,或 者是整个html 文件代码。 如何需要浏览器渲染模板内容应该使用 api.representation 这个装饰器来定 义一个函数, 在这个函数中,应该对 html 代码进行一个封装&#xff…

vue2 key的作用和原理

我们在写v-for的时候都会绑定一个key值,这个key在vue中有什么作用呢,不写可以吗? 目标 1 key有什么作用 2 如何不写key会产生什么影响 3 key使用原理 key的作用 可以看vue2官网上给的解释,“给vue一个提示,以便跟踪每个节点的身份”,这样听着很模棱两可,到底是什么作用…

解决“Pycharm中Matplotlib图像不弹出独立的显示窗口”问题

matplotlib的绘图的结果默认显示在SciView窗口中, 而不是弹出独立的窗口, 这样看起来就不是很舒服,不习惯。 通过修改设置,改成独立弹出的窗口。 File—>Settings—>Tools—>Python Scientific—>Show plots in toolwindow 将√去掉即可

在for循环加判断条件当条件都满足时,同时显现的解决方法

一、代码示例 function fu(s) {str ;ste ;console.log(s);let Things s;for (let i 0; i < Things.length; i) {if (Things[i].pid kk) {console.log(Things[i].pid);ste <div class"commodity_nei"><div class"zxc_pic"><div cl…

数据库专题(oracle基础和进阶)

前言 本专题主要记录自己最近学的数据库&#xff0c;有兴趣一起补习的可以一起看看&#xff0c;有补充和不足之处请多多指出。希望专题可以给自己还有读者带去一点点提高。 数据库基本概念 本模块有参考&#xff1a;数据库基本概念-CSDN博客 数据库管理系统是一个由互相关联的…

Java两地经纬度通过高德api获取两地距离(公里)

代码如下&#xff1a; String startLongitude entity.getLONGITUDE(); // 起点&#xff08;当前位置&#xff09;经度String startLatitude entity.getLATITUDE(); // 起点纬度String endLongitude entity.getLO(); // 终点经度String endLatitude entity.getLA(); …

Midjourney AI绘图工具介绍及使用

介绍 Midjourney是一款目前被誉为最强的AI绘图工具。只要输入想到的文字&#xff0c;就能通过人工智能产出相对应的图片。 官网只是宣传和登录入口&#xff0c;提供个人主页、订阅管理等功能&#xff0c;Midjourney实际的绘画功能&#xff0c;是在另外一个叫discord的产品中实…

计算机基础(中断、IO)

操作系统 设备交互 CPU 与 IO 设备交互过程 CPU 通过设备控制器&#xff08;驱动&#xff1f;&#xff09;与计算机外设进行交互。可以将控制器想象成编程语言中的接口&#xff0c;然后不同地计算机外设的控制器去实现这个接口&#xff0c;CPU 只需要调用接口而无需关注具体地…

记录三菱:Works2-计数器

参数设置&#xff1a;D200-D511掉电保持&#xff0c;这个范围可以更改 加减计数器 第一种&#xff1a; 第二种&#xff1a; 第三种&#xff1a; 例如&#xff1a;完成下面的功能 可以在触摸屏上仿真测试一下

unity学习(70)——编译游戏发生错误2

1.全屏问题其实无所谓&#xff0c;windows用tab可以切出来的。 2.现在主要问题是服务器try了以后虽然不崩溃了&#xff0c;但不再显示2个实例对象了&#xff0c;unity和exe此时都只能看到一个实例对象 2.1把之前报错位置的try-catch先注释掉 2.2 unity中此时登录666账号&…

2015年认证杯SPSSPRO杯数学建模D题(第二阶段)城市公共自行车全过程文档及程序

2015年认证杯SPSSPRO杯数学建模 D题 城市公共自行车 原题再现&#xff1a; 城市交通问题直接影响市民的生活和工作。在地形平坦的城市&#xff0c;公共自行车出行系统是一种很好的辅助手段。一般来说&#xff0c;公共自行车出行系统由数据中心、驻车站点、驻车桩、自行车&…

【Linux】信号量与信号

目录 先导知识 信号量 信号 信号概念及产生信号的一般方式 进程递达、阻塞和捕捉 信号集操作函数 信号的捕捉 可重入函数 先导知识 信号量与信号没有任何关系&#xff0c;它们是两个完全不同的概念&#xff01; 操作系统的本质&#xff0c;就是一个死循环&#xff1b;…

Django日志(四)

一、Filters介绍 过滤器用于从logger传递给handler的哪些日志要做额外控制 默认情况下,满足日志级别的任何消息都将处理。只要级别匹配,任何日志消息都会被处理。不过,也可以通过添加 filter 来给日志处理的过程增加额外条件。例如,可以添加一个 filter 只允许某个特定来源…

【C++】模板与泛型编程

文章目录 1. 泛型编程2. 函数模板2.1 函数模板概念2.2 函数模板格式2.3 函数模板的原理2.4 函数模板的实例化2.5 模板参数的匹配原则 3. 类模板3.1 类模板的定义格式3.2 类模板的实例化 4. 非类型模板参数5. 模板的特化5.1 概念5.2 函数模板特化5.3 全特化5.4 偏特化5.5 类模板…

Android 系统应用 pk8签名文件转jks或keystore教程

一、介绍 签名文件对于我们在做应用开发中&#xff0c;经常遇到&#xff0c;且签名文件不仅仅是保护应用安全&#xff0c;还会涉及到应用与底层之间的数据共享和API文件等问题。 在Android中&#xff0c;签名文件同样也存在这个问题。但是android中又区分系统应用和普通应用。系…

汉明校验·简明教程

汉明校验 一、简介 汉明码是由 Richard Hanming 于 1950 年提出的&#xff0c;它具有一位纠错能力。 新增的汉明码校验位数应满足如下关系&#xff1a; 2 k ⩾ n k 1 2^{k}\geqslant nk1 2k⩾nk1&#xff0c;其中k为校验位位数&#xff0c;n位数据位数。 二、汉明码生成 确…

centos7 的redis的安装

文章目录 查看本机redis⾸先安装 scl 源, 再安装 redis 基本配置启动redis停止redis 查看本机redis ⾸先安装 scl 源, 再安装 redis 安装scl源 yum install centos-release-scl-rh安装redis5 yum install rh-redis5-redis安装成功 基本配置 修改etc/redis/redis.conf 文件…

代码随想录算法训练营第二十一天(二叉树VII)| 530. 二叉搜索树的最小绝对差、501. 二叉搜索树中的众数、236. 二叉树的最近公共祖先(JAVA)

文章目录 530. 二叉搜索树的最小绝对差解题思路源码 501. 二叉搜索树中的众数解题思路源码 236. 二叉树的最近公共祖先解题思路源码 530. 二叉搜索树的最小绝对差 给你一个二叉搜索树的根节点 root &#xff0c;返回 树中任意两不同节点值之间的最小差值 。 差值是一个正数&a…
最新文章