论文阅读之MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System

文章目录

  • 论文地址
  • 主要内容
  • 主要贡献
  • 模型图
  • 技术细节
    • 数据集改进
    • 多视图CLIP框架
      • 文本视图
      • 图像视图
      • 图像-文本交互视图
  • 实验结果

论文地址

https://arxiv.org/pdf/2307.07135

主要内容

这篇文章介绍了一个名为MMSD2.0的多模态讽刺检测系统的构建,旨在提高现有讽刺检测系统的可靠性。文章首先指出了现有多模态讽刺检测基准(MMSD)存在的一些问题,包括模型偏差学习和不合理的负面样本标注。为了解决这些问题,作者提出了MMSD2.0,这是一个修正后的数据库,通过移除误导性的线索和重新标注不合理的样本来改进MMSD的不足。

此外,文章还介绍了一个名为multi-view CLIP的新颖框架,该框架能够利用来自多个视角(即文本、图像和文本-图像交互视角)的多粒度线索进行多模态讽刺检测。通过大量实验,作者证明了MMSD2.0是构建可靠多模态讽刺检测系统的有价值基准,并且multi-view CLIP框架在性能上显著超过了以前的基准模型。

主要贡献

文章的主要贡献包括:

  1. 首次指出了当前多模态讽刺基准中的问题,激励研究人员重新思考多模态讽刺检测的进展;
  2. 引入了MMSD2.0,这是一个修正后的数据库,去除了误导性线索并修正了不合理的标注,为构建可靠的多模态讽刺系统迈出了有意义的一步;
  3. 提出了一个新颖的多视图CLIP框架,该框架捕获了不同视角的图像、文本和图像-文本交互的线索,并实现了最先进的性能。

模型图

在这里插入图片描述
MMSD2.0数据集的总体构建过程。给定(a)中的示例,虚假线索去除阶段首先去除文本中的虚假线索,包括标签词(#terrible_food)和表情符号词(emoji_39)以获取(b),然后通过众包对不合理样本重新注释(人类重新注释)阶段对不合理的样本重新注释以获得最终的合理示例(c)。

在这里插入图片描述
文章的多视图CLIP的总体框架。预先训练的CLIP模型对输入的文本和图像进行编码。图像视图和文本视图利用仅图像和仅文本的信息来捕捉讽刺线索。图文交互视图融合了跨模态信息。这三个视图被聚合以进行最终预测。

技术细节

数据集改进

在这里插入图片描述可以观察到标签字数在正样本和负样本中的分布明显不平衡。如图所示,在训练、验证和测试集中,阳性样本中的标签词字数平均超过1个,而阴性样本中的少于1个。换句话说,模型只需要学习虚假相关性(标签词字数)而不需要真的理解讽刺就可以有比较好的训练结果了。

为了解决这个问题,文章从MMSD数据集中的文本中删除了标签词。这使得模型能够捕捉图像特征并使用它们来指导最终预测,而不是依赖于标签字数作为依据。

同样,文章也发现表情符号词在正负样本之间的分布也不平衡。具体而言,如图3(b)所示,只有19.3%的表情词同时存在于阳性和阴性样本中,而其余80.7%的表情符号词仅出现在一种类型的样本中(如阳性样本或阴性样本)。这表明该模型可以简单地使用表情符号单词分布作为预测的优先级,而不是真正捕捉多模式提示。为了解决这个问题,文章删除了文本中的所有表情符号单词,以迫使模型学习真正的多模态讽刺特征,而不是依赖于虚假的文本提示。

MMSD只是将没有“#讽刺”等特殊标签的样本视为负样本(即,不是讽刺)。文章认为这个过程是不合理的,因为没有#讽刺标签的样本也可以表达讽刺意图。因此,我们选择MMSD数据集中的所有负样本(超过50%)作为潜在的不合理样本进行进一步处理。也就是处理数据标注错误的情况。

经过上述处理(删除标签词、表情符号词、重新对阴性样本进行标注)就是得到了MMSD2.0,对比结果如下:
在这里插入图片描述

多视图CLIP框架

首先定义输入数据:
在这里插入图片描述
(x, y)表示一对文本-图像

文本视图

在这里插入图片描述
文本经过CLIP的text encoder进行编码,n表示一句话的词数量。
在这里插入图片描述
使用tCLS作为句子的信息表示然后得到只使用文本的信息进行分类的预测结果。

图像视图

在这里插入图片描述
图像也是同理,使用CLIP的image encoder(这里应该是ViT)对图像信息进行编码。
在这里插入图片描述
然后使用单独图像的信息得到一个预测结果。

图像-文本交互视图

在这里插入图片描述
在这里插入图片描述
对CILP的文本编码信息、图像编码信息进行拼接。
在这里插入图片描述
然后使用注意力机制进行特征交互融合,其中Q、K、V都是F经过线性变换的结果。
在这里插入图片描述在这里插入图片描述
交互融合后的特征取CLS使用key-less attention mechanism进行进一步融合,得到f
在这里插入图片描述
然后对f进行分类预测
在这里插入图片描述
那么最终的预测分布结果如下:在这里插入图片描述
其中yo可以被视为从文本视图、图像视图和图像-文本交互视图的不同角度利用丰富的特征。

损失函数就是上面三种视图的预测分布都进行损失计算。
在这里插入图片描述

实验结果

在这里插入图片描述
消融实验:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/579487.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

通过大模型(LLM)的多模态辩论的恶意表情包识别

Towards Explainable Harmful Meme Detection through Multimodal Debate between Large Language Models https://arxiv.org/abs/2401.13298https://arxiv.org/abs/2401.13298 1.概论 对于恶意表情包的识别,以往的研究方法没有能够深入表情包所隐含的复杂意义和文化背景,因…

vue-manage-system 更新,后台管理系统开发更简单

vue-manage-system 近期进行了一次版本升级,主要是支持了更多功能、升级依赖版本和优化样式,并且上线了官方文档网站,大部分功能都有文档或者使用示例,更加适合新手上手开发,只需要根据实际业务简单修改,就…

用fgets()替换fscanf()解决文件读取在小熊猫C++失败问题

fscanf()遇到空格就结束读取,导致文件读取数据没完就退出读取以至于不能导入游戏地图工程。 看看到右侧小方块轨迹知晓采样区移动情况 也已经实现摄像机追随玩家效果 // 程序:2D RPG 地图编辑器与摄像机追随 // 作者&#xff1…

C语言自定义类型【联合体与枚举】

文章目录 1.联合体1.1联合体的声明1.2联合体的特点1.3联合体的大小计算联合体的使用案例 2.枚举2.1枚举类型的声明2.2枚举类型的优点(为什么使用枚举)2.3枚举类型的使用 结语 1.联合体 1.1联合体的声明 和结构体一样,联合体也是由一个或多个成员构成,同…

如何在 Visual Studio 中通过 NuGet 添加包

在安装之前要先确定Nuget的包源是否有问题。 Visual Studio中怎样更改Nuget程序包源-CSDN博客 1.图形界面安装 打开您的项目,并在解决方案资源管理器中选择您的项目。单击“项目”菜单,然后选择“管理 NuGet 程序包”选项。在“NuGet 包管理器”窗口中…

CTF(web方向)--md5的“===”和“==”的绕过

一、PHP弱类型说明 1.简介 php是一种弱类型语言,对数据的类型要求并不严格,可以让数据类型互相转换。 在php中有两种比较符号: 一种是 ,另外一种是 ,都是用来比较两个数值是否相等的操作符,但他们也是有区别的: &a…

大数据架构相关知识总结

一、大数据处理系统架构特性 1. 鲁棒性和容错性: 系统必须对游bug的程序写入的错误数据游足够的适应能力 2. 低延迟读取和更新能力 3. 横向扩容: 可以通过增加机器数量来维持性能 4. 通用性: 需要支持绝大多数应用程序 5. 延展性:…

前端工程化Vue使用Node.js设置国内高速npm镜像源(踩坑记录版)

前端工程化Vue使用Node.js设置国内高速npm镜像源(踩坑记录版) 此篇仅为踩坑记录,并未成功更换高速镜像源,实际解决方法见文末跳转链接。 1.自身源镜像 自身镜像源创建Vue项目下载速度感人 2.更改镜像源 2.1 通过命令行配置 前提…

【工作】程序员工作压力八个常见来源与建议缓解压力小窍门

目录 ​编辑 一. 程序员工作压力八个常见来源与建议 1)目标职位不对 2)工作任务描述不清晰 3)快节奏的工作环境 4)项目后期突然被添加新的要求 5)计划外的工作事务会打断并破坏注意力 6)个人问题 7…

MySQL第一次作业

解压完安装包 以管理员进入命令行 初始化并记住初始随机密码 创建服务名称 启动mysql 使用随机密码登录 修改密码 退出并重登服务器 MySQL创建数据库和表 创建数据库 创建表 1.进入数据库 创建表 向表中插入数据

鸿蒙OpenHarmony【小型系统 编译】(基于Hi3516开发板)

编译 OpenHarmony支持hb和build.sh两种编译方式。此处介绍hb方式,build.sh脚本编译方式请参考[使用build.sh脚本编译源码]。 使用build.sh脚本编译源码 进入源码根目录,执行如下命令进行版本编译。 ./build.sh --product-name name --ccache 说明&…

[Java EE] 多线程(四):线程安全问题(下)

1.5 volatile关键字 我们在了解这个关键字之前,我们首先要把产生线程安全的第4个原因补齐,我们来说说由于内存可见性引起的线程安全问题. 我们来看下面这样一段代码: import java.util.Scanner;public class Demo16 {public static int count 0;public static void main(Str…

PotatoPie 4.0 实验教程(25) —— FPGA实现摄像头图像直方图均衡变换

图像的直方图均衡是什么? 图像的直方图均衡是一种用于增强图像对比度的图像处理技术。在直方图均衡中,图像的像素值被重新分配,以使得图像的直方图变得更均匀,即各个像素值的分布更加平衡。这意味着直方图中每个像素值的频率大致…

在PR中使用 obs 和 vokoscreen 录制的视频遇到的问题

1. obs 录制的视频 在 Adobe Premiere Pro CS6 中只有音频没有视频 2. vokoscreen 录制的视频,没有声音 这是是和视频录制的编码有关系,也和显卡驱动关系 首先 obs 点击 文件 ---> 设置 录制的视频都是可以正常播放的,在PR不行。更…

python爬虫 - 爬取 json 格式数据(股票行情信息:雪球网,自选股)

文章目录 1. 第一步:安装requests库2. 第二步:获取爬虫所需的header和cookie3. 第三步:获取网页4. 第四步:解析网页5. 第五步:解析 json 结构数据体6. 代码实例以及结果展示 python爬虫五部曲: 第一步&…

字符串变量 字符串常量

仅个人笔记 #include<iostream> using namespace std;int main() {char str[] "2232344434";for (int i 0; i < strlen(str); i){printf("%c", *(stri));}const char* arr "12343545";for (int i 0; i < strlen(arr); i){printf…

HackMyVM-Vulny

目录 信息收集 arp nmap nikto WEB信息收集 主页信息收集 gobuster RCE漏洞 反弹shell 提权 系统信息收集 横向渗透 flock提权 信息收集 arp ┌──(root㉿0x00)-[~/HackMyVM] └─# arp-scan -l Interface: eth0, type: EN10MB, MAC…

mysql-sql-练习题-2-窗口函数

窗口函数 访问量max sum建表窗口函数连接 直播间人数 第1、3名建表排名sum 访问量max sum 每个用户截止到每月为止&#xff0c;最大单月访问次数&#xff0c;累计到该月的总访问次数 建表 create table visit(uid1 varchar(5) comment 用户id,month1 varchar(10) comment 月…

【热门话题】Chrome 插件研发详解:从入门到实践

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 Chrome 插件研发详解&#xff1a;从入门到实践一、引言二、Chrome 插件基础概念…

Win32 API 光标隐藏定位和键盘读取等常用函数

Win32 API 光标隐藏定位和键盘读取等常用函数 一、Win32 API二、控制台程序指令modetitlepausecls 三、控制台屏幕上坐标的结构体COORD四、句柄获取函数GetStdHandle五、控制台光标操作1.控制台光标信息结构体CONSOLE_CURSOR_INFO2.得到光标信息函数GetConsoleCursorInfo3. 设置…
最新文章