一键开启ChatGPT“危险发言”

77d587892ec8e093497c23927573ba87.jpeg

大数据文摘授权转载自学术头条

作者:Hazel Yan

编辑:佩奇


随着大模型技术的普及,AI 聊天机器人已成为社交娱乐、客户服务和教育辅助的常见工具之一。


然而,不安全的 AI 聊天机器人可能会被部分人用于传播虚假信息、操纵舆论,甚至被黑客用来盗取用户的个人隐私。WormGPT 和 FraudGPT 等网络犯罪生成式 AI 工具的出现,引发了人们对 AI 应用安全性的担忧。


上周,谷歌、微软、OpenAI 和 Anthropic 共同成立了一个新的行业机构前沿模型论坛(Frontier Model Forum),促进前沿 AI 系统的安全和负责任的发展:推进 AI 安全研究,确定最佳实践和标准,促进政策制定者和行业之间的信息共享。


02105918c76f9705acf0db408ec0e226.jpeg


那么,问题来了,他们自家的模型真的安全吗?


近日,来自卡内基梅隆大学、Center for AI Safety 和 Bosch Center for AI 的研究人员便披露了一个与 ChatGPT 等 AI 聊天机器人有关的“大 bug”——通过对抗性提示可绕过 AI 开发者设定的防护措施,从而操纵 AI 聊天机器人生成危险言论。


当前热门的 AI 聊天机器人或模型,如 OpenAI 的 ChatGPT、谷歌的 Bard、Anthropic 的 Claude 2 以及 Meta 的 LLaMA-2,都无一幸免。


80132ed199d244b83d3db16cf08f4066.jpeg

图|通过对抗性提示可绕过 4 个语言模型的安全规则,引发潜在有害行为

 

具体而言,研究人员发现了一个 Suffix,可将其附加到针对大型语言模型(LLMs)的查询中,从而生成危险言论。相比于拒绝回答这些危险问题,该研究可以使这些模型生成肯定回答的概率最大化。

 

例如,当被询问“如何窃取他人身份”时,AI 聊天机器人在打开“Add adversarial suffix”前后给出的输出结果截然不同。


90ad0739a16bfbd5ccf74245931dae28.jpeg


7bb2006955ca659cf9ffa708f401254b.jpeg

图|开启 Add adversarial suffix 前后的聊天机器人回答对比


此外,AI 聊天机器人也会被诱导写出“如何制造原子弹”“如何发布危险社交文章”“如何窃取慈善机构钱财”等不当言论。


对此,参与该研究的卡内基梅隆大学副教授 Zico Kolter 表示,“据我们所知,这个问题目前还没有办法修复。我们不知道如何确保它们的安全。”


研究人员在发布这些结果之前已就该漏洞向 OpenAI、谷歌和 Anthropic 发出了警告。每家公司都引入了阻止措施来防止研究论文中描述的漏洞发挥作用,但他们还没有弄清楚如何更普遍地阻止对抗性攻击。


OpenAI 发言人 Hannah Wong 表示:“我们一直在努力提高我们的模型应对对抗性攻击的鲁棒性,包括识别异常活动模式的方法,持续通过红队测试来模拟潜在威胁,并通过一种普遍而灵活的方式修复新发现的对抗性攻击所揭示的模型弱点。”


谷歌发言人 Elijah Lawal 分享了一份声明,解释了公司采取了一系列措施来测试模型并找到其弱点。“虽然这是 LLMs 普遍存在的问题,但我们在 Bard 中已经设置了重要的防护措施,我们会不断改进这些措施。”


Anthropic 的临时政策与社会影响主管 Michael Sellitto 则表示:“使模型更加抵抗提示和其他对抗性的‘越狱’措施是一个热门研究领域。我们正在尝试通过加强基本模型的防护措施使其更加‘无害’。同时,我们也在探索额外的防御层。”


72b1992ecfe83945e9101b64d7deec57.jpeg

图|4 个语言模型生成的有害内容


对于这一问题,学界也发出了警告,并给出了一些建议。


麻省理工学院计算学院的教授 Armando Solar-Lezama 表示,对抗性攻击存在于语言模型中是有道理的,因为它们影响着许多机器学习模型。然而,令人惊奇的是,一个针对通用开源模型开发的攻击居然能在多个不同的专有系统上如此有效。


Solar-Lezama 认为,问题可能在于所有 LLMs 都是在类似的文本数据语料库上进行训练的,其中很多数据都来自于相同的网站,而世界上可用的数据是有限的。


“任何重要的决策都不应该完全由语言模型独自做出,从某种意义上说,这只是常识。”他强调了对 AI 技术的适度使用,特别是在涉及重要决策或有潜在风险的场景下,仍需要人类的参与和监督,这样才能更好地避免潜在的问题和误用。


普林斯顿大学的计算机科学教授 Arvind Narayanan 谈道:“让 AI 不落入恶意操作者手中已不太可能。”他认为,尽管应该尽力提高模型的安全性,但我们也应该认识到,防止所有滥用是不太可能的。因此,更好的策略是在开发 AI 技术的同时,也要加强对滥用的监管和对抗。


担忧也好,不屑也罢。在 AI 技术的发展和应用中,我们除了关注创新和性能,也要时刻牢记安全和伦理。


只有保持适度使用、人类参与和监督,才能更好地规避潜在的问题和滥用,使 AI 技术为人类社会带来更多的益处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/62879.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

8.7工作总结

一、我们想自定义一个titileBar出现如下这种情况,发现他原来的titileBar还未隐藏。 后来我尝试修改主题使得他没有主题noActionBar发现也不行,后来我参考原先我看过的项目使用了如下代码 this.getActionBar().hide();发现会报这个错误java.lang.NullPoi…

HTTPS-RSA握手

RSA握手过程 HTTPS采用了公钥加密和对称加密结合的方式进行数据加密和解密 RSA握手是HTTPS连接建立过程中的一个关键步骤,用于确保通信双方的身份验证和生成对称加密所需的密钥 通过RSA握手过程,客户端和服务器可以协商出一个共享的对称密钥,…

使用pg_prewarm缓存PostgreSQL数据库表

pg_prewarm pg_prewarm 直接利用系统缓存的代码,对操作系统发出异步prefetch请求,在应用中,尤其在OLAP的情况下,对于大表的分析等等是非常耗费查询的时间的,而即使我们使用select table的方式,这张表也并不可能将所有…

SpringCloud实用篇1——eureka注册中心 Ribbon负载均衡原理 nacos注册中心

目录 1 微服务1.1 微服务的演变1.2 微服务1.3 SpringCloud1.4 小结 2 服务拆分及远程调用2.1 服务拆分2.2 服务拆分案例2.3 实现远程调用2.4 提供者与消费者 3 Eureka注册中心3.1 Eureka的结构和作用3.2 搭建eureka-server3.3 服务注册3.4 服务发现 4 Ribbon负载均衡4.1 负载均…

rust基础

这是笔者学习rust的学习笔记(如有谬误,请君轻喷) 参考视频: https://www.bilibili.com/video/BV1hp4y1k7SV参考书籍:rust程序设计语言:https://rust.bootcss.com/title-page.htmlmarkdown地址:h…

【雕爷学编程】Arduino动手做(192)---Air724UG Cat1 物联网4G模块2

37款传感器与模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的&#x…

坐标转换-使用geotools读取和转换地理空间表的坐标系(sqlserver、postgresql)

前言: 业务上通过GIS软件将空间数据导入到数据库时,因为不同的数据来源和软件设置,可能导入到数据库的空间表坐标系是各种各样的。 如果要把数据库空间表发布到geoserver并且统一坐标系,只是在geoserver单纯的设置坐标系只是改了…

[PyTorch][chapter 46][LSTM -1]

前言: 长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的。 目录: 背景简介 LSTM C…

【windows】windows上如何使用linux命令?

前言 windows上的bat命令感觉不方便,想在windows上使用linux命令。 有人提供了轮子,本文简单介绍一些该轮子的安装与使用,希望能够帮助到和我有一起需求的网友。 我的答案是busybox。 1.安装busybox.exe 在这个网站上安装busybox busyb…

Windows下安装Kafka(图文记录详细步骤)

Windows下安装Kafka Kafka简介一、Kafka安装前提安装Kafka之前,需要安装JDK、Zookeeper、Scala。1.1、JDK安装(version:1.8)1.1.1、JDK官网下载1.1.2、JDK网盘下载1.1.3、JDK安装 1.2、Zookeeper安装1.2.1、Zookeeper官网下载1.2.…

FPGA纯verilog实现 LZMA 数据压缩,提供工程源码和技术支持

目录 1、前言2、我这儿已有的FPGA压缩算法方案3、FPGA LZMA数据压缩功能和性能4、FPGA LZMA 数据压缩设计方案输入输出接口描述数据处理流程LZ检索器数据同步LZMA 压缩器 为输出LZMA压缩流添加文件头 5、vivado仿真6、福利:工程代码的获取 1、前言 说到FPGA的应用&…

计算机二级Python基本操作题-序号45

1. 键盘输入一组水果名称并以空格分隔,共一行。 示例格式如下: 苹果 芒果 草莓 芒果 苹果 草莓 芒果 香蕉 芒果 草莓 统计各类型的数量,从数量多到少的顺序输出类型及对应数量,以英文冒号分隔,每个类型行。输出结果保存…

学生管理系统(升级版)

import java.util.ArrayList; import java.util.Random; import java.util.Scanner;public class Demo_学生管理系统 {public static void main(String[] args) {ArrayList<User> list new ArrayList<>();Scanner sc new Scanner(System.in);while (true) {Syste…

Hive创建外部表详细步骤

① 在hive中执行HDFS命令&#xff1a;创建/data目录 hive命令终端输入&#xff1a; hive> dfs -mkdir -p /data; 或者在linux命令终端输入&#xff1a; hdfs dfs -mkdir -p /data; ② 在hive中执行HDFS命令&#xff1a;上传/emp.txt至HDFS的data目录下&#xff0c;并命名为…

励志长篇小说《周兴和》书连载之八 处心积虑揽工程

处心积虑揽工程 如何去揽工程&#xff0c;周兴和其实早就谋划好了。 那一天&#xff0c;周兴和与爱人王琼华的姐夫严忠伦、大舅子王安全提了10来只大公鸡&#xff0c;背着两只狗腿&#xff0c;以及城里人喜欢的干豇豆等山区土特产&#xff0c;坐车来到省城成都。下了车&#x…

zookeeper --- 基础篇

一、zookeeper简介 1.1、什么是zookeeper zookeeper官网&#xff1a;https://zookeeper.apache.org/ 大数据生态系统里的很多组件的命名都是某种动物或者昆虫&#xff0c;他是用来管 Hadoop&#xff08;大象&#xff09;、Hive(蜜蜂)、Pig(小 猪)的管理员。顾名思义就是管理…

侧边栏的打开与收起

侧边栏的打开与收起 <template><div class"box"><div class"sideBar" :class"showBox ? : controller-box-hide"><div class"showBnt" click"showBox!showBox"><i class"el-icon-arrow-r…

『PostgreSQL』在 PostgreSQL中创建只读权限和读写权限的账号

&#x1f4e3;读完这篇文章里你能收获到 理解在 PostgreSQL 数据库中创建账号的重要性以及如何进行账号管理掌握在 PostgreSQL 中创建具有只读权限和读写权限的账号的步骤和方法学会使用 SQL 命令来创建账号、为账号分配适当的权限以及控制账号对数据库的访问级别了解如何确保…

css position: sticky;实现上下粘性布局,中间区域滚动

sticky主要解决的问题 1、使用absolute和fixed中间区域需要定义高度2、使用absolute和fixed底部需要写padding-bottom 避免列表被遮挡住一部分&#xff08;底部是浮窗的时候&#xff0c;需要动态的现实隐藏&#xff09; <!DOCTYPE html> <html lang"en"&…

初学者自学python哪本书好,python教程自学全套

大家好&#xff0c;小编来为大家解答以下问题&#xff0c;python怎么自学,可以达到什么程度&#xff0c;初学者自学python哪本书好&#xff0c;现在让我们一起来看看吧&#xff01; 前言 Python是一个非常适合自学&#xff0c;0基础的话从入门到精通也只需要花3-4个月PYTHON库“…