NLP论文阅读记录 - WOS | ROUGE-SEM:使用ROUGE结合语义更好地评估摘要

文章目录

  • 前言
  • 0、论文摘要
  • 一、Introduction
    • 1.1目标问题
    • 1.2相关的尝试
    • 1.3本文贡献
  • 二.相关工作
  • 三.本文方法
  • 四 实验效果
    • 4.1数据集
    • 4.2 对比模型
    • 4.3实施细节
    • 4.4评估指标
    • 4.5 实验结果
      • 4.6 细粒度分析
  • 五 总结


前言

在这里插入图片描述

ROUGE-SEM: Better evaluation of summarization using ROUGE combined with semantics(23)

0、论文摘要

随着预训练语言模型和大规模数据集的发展,自动文本摘要引起了自然语言处理界的广泛关注,但自动摘要评估的进展却停滞不前。尽管人们一直在努力改进自动摘要评估,但由于其具有竞争力的评估性能,ROUGE 近 20 年来仍然是最受欢迎的指标之一。
然而,ROUGE并不完美,有研究表明,它存在抽象摘要评估不准确和生成摘要多样性有限的问题,这都是由词汇偏差造成的。为了避免词汇相似性的偏差,人们提出了越来越多有意义的基于嵌入的度量,通过测量语义相似性来评估摘要。由于准确测量语义相似度的挑战,它们都无法完全取代 ROUGE 作为文本摘要的默认自动评估工具包。
为了解决上述问题,我们提出了一种折衷评估框架(ROUGE-SEM),用于利用语义信息改进ROUGE,通过语义相似度模块弥补语义意识的缺乏。根据语义相似度和词汇相似度的差异,首次将摘要分为四类:好摘要、珍珠摘要、玻璃摘要和坏摘要。
特别是,采用回译技术重写了ROUGE评估不准确的pearl-summary和glass-summary,以减轻词汇偏差。通过这个管道框架,摘要首先由候选摘要分类器分类,然后由分类摘要重写器重写,最后由重写的摘要评分器评分,以符合人类行为的方式进行有效评估。当使用 Pearson、Spearman 和 Kendall 等级系数进行测量时,我们的建议在连贯性、一致性、流畅性和相关性方面比几种最先进的自动摘要评估指标实现了与人类判断相当或更高的相关性。这也表明用语义改进 ROUGE 是自动摘要评估的一个有前途的方向。

一、Introduction

1.1目标问题

作为自然语言处理 (NLP) 最受关注的领域之一,自动文本摘要 (ATS) 已被广泛研究了数十年(El-Kassas、Salama、Rafea 和 Mohamed,2021;Garg 和 Kumar,2022;Xiao,何和金,2022)。特别是近年来,由于大规模数据集的引入(Cohen, Kalinsky, Ziser, & Moschitti, 2021; Fabbri, Li, She, Li, & Radev, 2019)以及预训练的提出,ATS 得到了快速发展。语言模型 (PLM)(Ghadimi & Beigy,2022;Mohd、Jan 和 Shah,2020;Xie、Bishop、Tiwari 和 Ananiadou,2022)。特别是,一个有效的自动摘要评估指标对于 ATS 来说将是一个巨大的福音,因为不仅可以将人们从耗时耗力的人工评价中解放出来,而且极大地促进了文本摘要的发展。
正如 Koto、Baldwin 和 Lau(2022)中提到的,ATS 的主流评估采用 ROUGE(Lin,2004),这是一种简单但有用的评估指标,用于计算候选摘要和参考摘要之间的重叠单位。然而,广泛使用的ROUGE对于自动摘要评估来说并不完美。 ROUGE因其直观、简单和易于计算而受到欢迎,但有研究指出它仍然存在缺陷(Lin et al., 2022; Schluter, 2017; ShafieiBavani, Ebrahimi, Wong, & Chen, 2018)。由于ROUGE可能通过测量候选摘要和参考摘要之间的词汇相似性而表现出词汇偏差(Ng&Abrecht,2015),因此它在评估ATS时具有以下局限性。首先,ROUGE 通常被认为不适合评估抽象摘要,因为它限制了生成摘要的多样性。众所周知,同一个源文档可以为具有不同知识或目的的人生成不同表达方式的多个摘要。然而,ROUGE 通过奖励具有较大词汇相似性的摘要并惩罚具有较小词汇相似性的摘要来限制生成摘要的多样性。其次,带有词汇偏差的ROUGE无法全面评估候选摘要。为了全面评估候选摘要,人工评估通常会考虑很多因素,包括冗余性、信息量和可读性等。然而,ROUGE本质上无法评估候选摘要的文本质量,因为它只考虑候选摘要之间的词汇相似度和参考摘要。具体来说,ROUGE 在连贯性和流畅性方面表现出更好的相关性,但在一致性和相关性方面表现出较差的相关性,这是基于词汇相似性的指标的常见问题。最后,ROUGE 已多次被证明与手动评估具有良好的相关性,但由于这些局限性,仍然有很大的改进空间。
为了改进自动摘要评估,人们做出了许多努力来解决 ROUGE 的上述局限性。一方面,一些研究通过同义词替换和释义对 ROUGE 进行了扩展,例如 ROUGE-WE (Ng & Abrecht, 2015)、ROUGE 2.0 (Ganesan, 2018) 和 ROUGE-G (ShafieiBavani et al., 2018)。另一方面,一些研究考虑了单词之间的语义关系来替代标准ROUGE。由于精确单词匹配的限制,近年来越来越多的基于语义嵌入的度量被提出,这些度量计算两个摘要的向量表示之间的相似度。作为基于语义嵌入的度量的早期代表,GM (Rus & Lintean, 2012)、VE (Forgues, Pineau, Larchevêque, & Tremblay, 2014) 和 SMS (Clark, Celikyilmaz, & Smith, 2019) 发挥了积极的作用在自动总结评价中。最近,Cao和Zhuge(2022)采用语义链接网络来评估候选摘要的保真度、简洁性和连贯性。尤其是随着PLM的快速发展,基于PLM的自动摘要评估研究引起了相当大的关注,例如MoverScore(Zhao et al., 2019)、BERTScore(Zhang, Kishore, Wu, Weinberger, & Artzi, 2020)和BARTScore(Yuan、Neubig 和 Liu,2021)。最近,SPEED(Akula & Garibay,2022)使用专门针对句子对任务进行预训练的句子级嵌入来计算两个文本的语义相似度。 Sem-nCG (Akter, Bansal, & Santu, 2022) 是一种基于增益的评估指标,它不仅具有语义意识,而且还根据句子的排名奖励摘要。此外,ENMS (He, Jiang, Chen, Le, & Ding, 2022) 利用语义信息来增强现有的基于 N-gram 的评估指标。由于获取参考摘要的困难,研究人员还提出了用于评估候选摘要的无参考指标,例如 SUPERT (Gao, Zhu, & Eger, 2020)、SDC* (Liu, Jia, & Zhu, 2022) 和 Shannon (伊根、瓦西里耶夫和博汉农,2022)。尽管不断努力改进自动摘要评估,但这些指标都不能完全取代 ROUGE 作为文本摘要的默认自动评估工具包,因为它已被反复证明与多个维度的人类判断良好相关。
在本文中,我们提出了一种折衷方法来解决 ROUGE 的上述局限性,因为准确测量语义相似性具有挑战性。受到 ShafieiBavani 等人的启发。 (2018),我们提出了一种管道框架(ROUGE-SEM),该框架使用 ROUGE 结合语义信息进行自动摘要评估。具体来说,采用具有对比学习的Siamese-BERT网络作为语义相似度模块来弥补语义意识的缺乏。如图1所示,所提出的评估框架由候选摘要分类器、分类摘要重写器和重写摘要评分器。这些单独的组件构成了符合人类行为的管道方法,即首先利用语义和词汇相似性对候选摘要进行分类,然后重写难以评估的摘要,最后根据分类和重写的结果对摘要进行重新评分。
为了更直观地说明所提出的 ROUGE-SEM,我们提供了 DialSummEval 数据集中的一些典型示例。如图2所示,源文档、参考摘要和候选摘要分别显示在前三列中。第四列和第五列分别评估候选摘要在词汇或语义上是否与参考摘要相似。然后,候选摘要的类别显示在第六列中。第七列展示了反向翻译的结果。最后,最后两列分别显示标准 ROUGE-1/2/L 分数和建议的 ROUGE-SEM-1/2/L 分数。从图2中,我们观察到,根据语义和词汇相似度的差异,候选摘要被分为四类,包括goodsummary、pearl-summary、glass-summary和bad-summary。由于词汇偏差,ROUGE很难准确评估语义相关但不相似的珍珠摘要和语义不相关但相似的玻璃摘要。通过使用反向翻译技术重写上述摘要,我们可以通过更多样化的同义表达来减轻其对词汇相似性的偏见。这样,被低估的珍珠摘要有很高的概率获得较高的分数,而高估的玻璃摘要有很高的概率获得较低的分数。这就是为什么ROUGE-SEM是比传统ROUGE更有效的评估指标,它通过解决词汇偏差问题,显着提高了pearl-summary和glass-summary的评估性能。
为了验证我们提出的评估指标,对 SummEval (Fabbri, Kryściński, McCann, Xiong, Socher, & Radev, 2021) 和 DialSummEval (Gao & Wan, 2022) 进行了广泛的实验。特别是,Pearson、Spearman 和 Kendall 相关系数用于衡量评估表现的连贯性、一致性、流畅性和相关性。实验结果表明,ROUGE-SEM 的性能优于或相当几个最先进的总结评估指标。与成熟的 ROUGE 指标相比,无论使用何种相关性度量,所提出的评估指标在四个维度上都显示出与人类判断更高且更一致的相关性。这些令人兴奋的结果证实了使用语义来增强 ROUGE 的有效性,表明这是自动摘要评估的一个有前途的方向。

1.2相关的尝试

1.3本文贡献

总之,我们的贡献如下:
• 我们提出了一种新颖的摘要评估指标(ROUGESEM),它通过具有对比学习的Siamese-BERT网络弥补语义意识的缺乏,从而改进了传统的ROUGE。所提出的评估指标由三个单独的组件组成,包括候选摘要分类器、分类摘要重写器和重写摘要评分器。通过这个管道框架,摘要首先被分类,然后重写,最后评分,以符合人类行为的方式进行有效评估。
• 根据候选摘要和参考摘要在词汇相似度和语义相似度上的差异,我们引入了候选摘要的分类。它包括语义相关且词汇相似的good-summary、语义相关但词汇不相似的pearl-summary、语义不相关但词汇相似的glass-summary、语义不相关且词汇不相似的bad-summary。我们相信这将有利于自动摘要评估的进展,特别是提供改进基于词汇重叠的度量的潜力。
• 我们在两个基准数据集上进行实验来验证ROUGE-SEM 的有效性。
实验结果表明,我们提出的指标优于或与 SummEval 和 DialSummEval 数据集上的几种最先进的摘要评估指标相当,这表明这是自动摘要评估的一个有前途的方向。我们还分享了拟议的 ROUGE-SEM,以促进文本摘要系统的未来工作。

二.相关工作

由于文本摘要的手动评估对于大规模数据集并不实用,因此自动摘要评估引起了研究人员的广泛关注(Deutsch, Dror, & Roth, 2021;Shapira, Pasunuru, Ronen, Bansal,Amsterdamer, & Dagan, 2021;Wang ,Otmakhova、DeYoung、Truong、Kuehl、Bransom 和 Wallace,2023;Zhao 和 Lui,2022)。到目前为止,已经使用了多种指标来衡量文本摘要系统的性能。近年来提出的自动摘要评估指标概述如表1所示。本节介绍ATS评估的相关工作,分为外在评估和内在评估两类。

三.本文方法

四 实验效果

4.1数据集

4.2 对比模型

4.3实施细节

4.4评估指标

4.5 实验结果

4.6 细粒度分析


五 总结

在本文中,我们提出了一种新的评估指标ROUGE-SEM,它通过结合语义信息来增强流行的ROUGE。为了实现这一目标,候选摘要分类器、分类摘要重写器和重写摘要评分器作为主要组件以符合人类行为的方式构成了管道框架。具体地,候选摘要分类器采用语义相似度模块来计算语义相似度,并使用词汇相似度模块来计算候选摘要和参考摘要之间的词汇相似度。然后,根据语义相似度和词汇相似度的差异,将候选摘要分为四组,包括好摘要、珍珠摘要、玻璃摘要和坏摘要。对于ROUGE错误评估的pearl-summary和glass-summary,分类摘要重写器采用回译技术,通过更多样化的同义表达来减轻词汇偏差。最后,重写摘要评分器根据候选摘要分类器和分类摘要重写器的结果输出更准确的评估分数。实验结果表明,ROUGE-SEM 的性能可与现有的强基线和广泛使用的指标(使用三个系数测量)相媲美。特别是,ROUGE-SEM 的变体始终优于 ROUGE 的相应变体。
在未来的工作中,我们将采用一些特定于任务的预训练语言模型作为语义编码器,以实现更准确的语义相似度。我们将考虑用各种文本生成模型替换反向翻译模块以进行离线评估。此外,我们将采用更高效的参数优化策略进行参数调优。最后,我们将应用建议的指标来评估现有的基线和最先进的总结器。我们希望这项工作能够对未来文本摘要系统的研究产生积极的影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/319782.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ssh 远程登录协议

一、SSH 服务 1.1 SSH 基础 SSH(Secure Shell)是一种安全通道协议,主要用来实现字符界面的远程登录、远程 复制等功能。SSH 协议对通信双方的数据传输进行了加密处理,其中包括用户登录时输入的用户口令,SSH 为建立在应…

STM8入门|第一个工程

开发软件 不支持Keil,使用IAR for STM8,注意 IAR系列有很多种 STM8对应软件是 IAR for STM8 软件下载: 官网下载地址,官网版本下载比较麻烦,可以按教程网盘地址下载。 下载安装教程: https://www.cnblogs…

Compileflow工作流引擎使用讲解

文章目录 1 Compileflow1.1 简介1.2 特点1.3 Compileflow插件下载1.4 main方法调用1.4.1 pom.xml1.4.2 新建bpm文件1.4.3 各个节点绑定方法1.4.4 测试方法 1.5 bpm各个标签说明1.5.1 BPM根节点1.5.2 全局变量1.5.3 开始节点: start1.5.4 结束节点: end1.5.5 自动节点: autoTask…

B-TREE(B-树)

B-TREE B-tree 又叫平衡多路查找树。一棵 m 阶的 B-tree (m 叉树)的特性如下(其中 ceil(x)是一个取上限的函数): 树中每个结点至多有 m 个孩子; 除根结点和叶子结点外,其它每个结点至少有有 ceil(m / 2)个孩子&#…

JVM实战(13)——JVM优化概述

作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO 联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬 学习必须往深处挖&…

每日一题——LeetCode1128.等价多米诺骨牌对的数量

先尝试暴力解法&#xff1a; var numEquivDominoPairs function(dominoes) {var count0for(let i0;i<dominoes.length-1;i){for(let ji1;j<dominoes.length;j){if((dominoes[i][0]dominoes[j][0] && dominoes[i][1]dominoes[j][1]) || (dominoes[i][0]dominoes…

Qt/QML编程学习之心得:小键盘keyboard(36)

小键盘对于qml应用是经常用到的,在qml里面,就如一个fileDialog也要自己画一样,小键盘keyboard也是要自己画的,对于相应的每个按键的clicked都要一一实现的。 这里有一个示例: 代码如下: import QtQuick 2.5 import QtQuick.Controls 1.4 import QtQuick.Window 2.0 im…

Redis面试篇

redis面试题主要内容 面试官在面试时主要会问以下这些方面的问题 下面是一些问题示例&#xff1a; redis-使用场景 缓存 缓存穿透 介绍 缓存穿透&#xff1a;查询一个不存在的数据&#xff0c;mysql查询不到数据也不会直接写入缓存&#xff0c;就会导致每次请求都会去查数…

2.1 常用计算机网络体系结构

2.1 常用计算机网络体系结构 2.1.1 OSI体系结构 1、为了使不同体系结构的计算机网络都能够互联&#xff0c;国际标准化组织于1977年成立了专门机构研究该问题&#xff0c;不久他们就提出了一个试图使各种计算机在世界范围内都能够互连成网的标准框架&#xff0c;也就是著名的…

Redis命令 - Lists命令组常用命令

先创建一个 key 叫做 mylist&#xff0c;mylist存一个list。 list数据类型底层是一个链表。先进后出&#xff0c;后进先出。 命令中的L&#xff08;Left&#xff09;、R&#xff08;Right&#xff09;代表链表的头部L&#xff08;下标0的位置&#xff09;和尾部R&#xff08;…

mysql5.7之从入门到放弃

系列文章目录 第一章 MySQL5.7之从入门到放弃 第二章 MySQL从入门到放弃之数据库体系结构与管理 第三章 MySQL基础应用之DDL、DCL、DML、DQL 文章目录 系列文章目录前言一、Mysql的介绍和安装&#xff1f;1、什么是数据&#xff1f;2、什么是数据库管理系统&#xff08;DBMS&a…

基于深度学习的老照片修复系统

技术栈 深度学习 pytorch tensorflow python 卷积神经 神经网络 照片修复 vue 老照片修复 扫描褪色 残损照片或胶片 调整暗调/高光以改善面效果 修正曝光斑痕 背景&#xff1a; 随着时间的流逝&#xff0c;许多老照片可能会褪色、损坏或曝光不当。这些老照片记录了宝贵的回忆…

如何在Windows 11的桌面中添加此电脑图标,这里提供四种方法

将“此电脑”图标添加到Windows 11桌面,使文件更容易访问。虽然Window的11酷设计从一开始就没有包含这个图标,但没必要担心。取回它很容易。你可以通过“设置”菜单、快捷方式或使用“控制面板”再次返回。有几种方法可以恢复此图标。 在这篇文章中,我们将探讨不同的方法,…

Windows下使用clion调试LevelDB与rocksdb

目录 关于leveldb下载leveldb源码增加测试文件更新cmake文件运行 关于RocksDB下载RocksDB代码修改CMakelist.txt运行 参考资料&#xff1a; 关于leveldb 下载leveldb源码 链接: leveldbGit地址 增加测试文件 使用clion打开项目&#xff0c;在根目录下新建一个app目录&#…

超详细的嵌入式cJSON使用注意事项,持续补充中......

文章目录 一、堆内存不足1.1 问题描述1.2 解决办法 二、内存泄露2.1 忘记Delete2.2 忘记Free2.3 串口数据接收缺少部分字符导致的内存泄露(自己的问题)问题分析 2.4 内存泄露在Cortex-M3内核会发生什么&#xff1f; cJSON开源库地址&#xff1a; cJSON 一、堆内存不足 1.1 问…

第十二讲 单片机驱动彩色液晶屏 如何打包bin档

单片机驱动TFT彩色液晶屏系列讲座 目录 第一讲 单片机最小系统STM32F103C6T6通过RA8889驱动彩色液晶屏播放视频 第二讲 单片机最小系统STM32F103C6T6控制RA8889驱动彩色液晶屏硬件框架 第三讲 单片机驱动彩色液晶屏 控制RA8889软件:如何初始化 第四讲 单片机驱动彩色液晶屏 控…

Python-- if...else

在 Python 中&#xff0c;if 语句是用来进行条件判断的基本结构。它允许您根据一个或多个条件的真假来执行不同的代码块。Python 的 if 语句的基本语法如下&#xff1a; if condition:# do something elif another_condition:# do something else else:# do something if none…

【Linux】线程池实现

&#x1f4d7;线程池实现&#xff08;单例模式&#xff09; 1️⃣线程池概念2️⃣线程池代码样例3️⃣部分问题与细节&#x1f538;类成员函数参数列表中隐含的this指针&#x1f538;单例模式&#x1f538;一个失误导致的bug 4️⃣调用线程池完成任务 1️⃣线程池概念 线程池是…

C#,求最长回文字符串的马拉车(Manacher)算法的源代码

一、回文字符串&#xff08;Palindromic String&#xff09; 回文字符串&#xff08;Palindromic String&#xff09;是指前、后向读起来完全相同的字符串。 回文字符串除了答题似乎没有什么用处 :P 二、求解思路 求解字符串的回文子串的基本思路&#xff1a; 1、遍历每个位…

C# 图解教程 第5版 —— 第25章 反射和特性

文章目录 25.1 元数据和反射25.2 Type 类25.3 获取 Type 对象25.4 什么是特性25.5 应用特性25.6 预定义的保留特性25.6.1 Obsolete 特性25.6.2 Conditional 特性25.6.3 调用者信息特性25.6.4 DebuggerStepThrough 特性25.6.5 其他预定义特性 25.7 关于应用特性的更多内容25.7.1…
最新文章