EMNLP2023 | LLM作用下的成分句法分析基础研究

844958d9b689e60fed4f9e3467ca5f53.png

深度学习自然语言处理 原创
作者:cola

自训练已被证明是一种有效的针对跨域任务的方法。传统的自训练方法依赖于有限且低质量的源语料库。为克服这一限制,本文提出用大型语言模型(LLM)增强自训练,以迭代地生成特定领域的语料库。并针对句法成分解析,引入了指导LLM生成源语料库的语法规则,建立了选择伪实例的标准。

在博士毕业就有10篇ACL一作的师兄指导下是种什么体验

论文:
LLM-enhanced Self-training for Cross-domain Constituency Parsing

地址:
https://arxiv.org/pdf/2311.02660.pdf

背景介绍

成分解析作为NLP中的一项基本任务,已经在领内基准上取得了显著的进展,这表明解析器在捕获底层语法结构方面的能力日益增强。然而,开放域句法成分解析具仍具有挑战。在不同的开放域中,成分解析面临的复杂性超出了定义明确的任务。解决这些挑战对于其现实世界的NLP应用至关重要。

为了解决域偏移问题,基于自训练的无监督域适应已经成为一种有效的方法。例如在每次迭代过程中利用源域模型自动标注来自目标域的大规模源语料,然后选择置信度高的伪数据作为额外的训练数据,以提高目标域性能。然而,在低资源领域,源语料库的质量和数量往往无法保证,这限制了自训练方法的使用。而LLM具有强大的生成能力,可以作为解决目标域源语料库数量和质量挑战的潜在解决方案。2b52c55a4328be87b382d3574e6255e6.png在生成句子时解决LLM的灵活性和幻觉问题面临挑战,我们采用语法规则作为LLM生成目标域句子的指令。语法规则与句法成分解析密切相关。

方法

采用伯克利神经解析器(Berkeley Neural Parser)作为方法的基础。该解析器是一种基于图表的方法,采用自注意力编码器和图表解码器,利用预训练的嵌入作为输入来增强解析过程。由于融合了预训练语言模型,伯克利神经解析器天生具有跨域句法分析能力。这使得解析器可以在源域上进行训练,可直接应用于目标域。

自训练

自训练的主要目标是为目标域生成高质量的训练实例,然后使用这些实例训练目标域模型。具体来说,在基础方法的每次迭代中,都进行了三个主要步骤:

  1. 训练解析器:使用源域成分树训练伯克利神经解析器。

  2. 解析源语料库:用训练好的模型来解析来自目标域的源文本,生成解析树,作为下一步的候选伪树。

  3. 伪数据选择:选择高置信度的伪树作为额外的训练实例,然后用于增强模型在目标域上的性能。

通过迭代地重复这些步骤,自训练方法使解析器适应目标域,利用源注释树生成高质量的伪树。

LLM增强自训练

如图2所示,动态嵌入LLM作为迭代自训练过程中的一个关键组件。在每次迭代中,我们基于上一步更新的树,利用LLM为目标域生成源语料库。语法规则(GRs)从树中提取,对指导目标域源语料的LLMs生成起着至关重要的作用。44628e2bb0b4a6fc7fc422246091387d.png在每次迭代中,LLM增强的自训练句法成分解析可划分为6个详细步骤:

  1. LLM生成:利用LLM为目标域生成一个源语料库。

  2. 解析训练:用源树库和目标域选择的伪树来训练成分解析器。初始化时,伪树为空,解析器仅在源域数据上进行训练。

  3. 域解析:我们用训练过的解析器来解析生成的源语料库,产生一组候选解析树。

  4. 树的选择:从生成的解析树中,选择一个高质量解析树的子集来组成伪树库。

  5. 更新树库:通过添加选定的伪树库来更新源树库。

  6. GRs抽取:从更新的树库中抽取语法规则。

LLM增强的自训练过程不断迭代,直到收敛。

实例选择

本文提出了一种基于语法规则的伪数据选择准则。与之前仅关注任务的自训练选择标准不同,该标准同时考虑了任务和LLM 生成语料库的特征,确保所选择的伪数据适用于使用自训练的跨域解析。

给定源集和候选实例(候选集),与之间的距离为:48606080851b9616bf7b8de2f4b7abb5.png然后,在自训练过程中选择最接近源域集的前个候选集作为额外的训练实例。716832ed2ddfa09d0313606c80be128c.png距离计算可以在token级进行,也可以在语法规则级进行,通过调整集合来分别表示token分布和语法规则分布。实例选择过程包含三个层次的标准:token、置信度和语法规则。并结合两个表现最好的标准,即基于置信度的选择和基于语法规则的选择,从而产生了一个更有效的标准,用于识别高质量实例以适应目标领域。

LLM提示

为了生成包含全面结构信息并与目标域句子风格密切相似的句子,本文提出了一个融合语法规则和目标域示例的LLM提示。在生成过程中,我们需要准备以下参数:1)从树库中提取的条语法规则,2)从目标领域中采样的个句子,3)生成句子的长度约束。

通过从树库句子长度的分布中采样来确定的值,并从中提取语法规则。注意,语法规则是直接从成分树中提取的,其中父节点对应于语法规则的左侧,所有子节点对应于右侧尾部。例如,如果树库是源域数据PTB,我们为平均长度引入高斯分布,记为,以获得条语法规则。

我们抽取了5个目标域句子。由于生成的句子的长度与语法规则数量密切相关,因此使用另一种正态分布来采样两个值和,这两个值定义了生成句子的长度限制。图3给出了一个具体的例子:6431db0a139ef8cf596cb0bca05a823b.png

实验

数据:PTB-源数据,MCTB-目标数据。

主要结果

为方便起见,主要的对比实验采用bert-base-uncased进行,仅在bert-large-uncased上进行比较。表1报告了句法成分解析器在五个目标域上的性能。5a1b43dc8b32843aafc3a7de9178f836.png

分析

实例选择策略

首先研究了每次迭代的四种不同的选择策略:基于Token的、基于Conf的、基于GRs的和基于GRsConf的。图4中的折线图分为两个部分,说明了基本的和LLM增强的自训练成分解析在迭代期间的解析器性能。从图中可知,对于基础的方法,除GRsConf外,所有策略的性能都呈现出先上升后下降的趋势。这种趋势表明,经过几次迭代后,候选数据的特征偏差越来越大,越来越不适合域迁移。在评论领域,使用GRsConf选择的伪数据进行自训练取得了最好的性能。10551acf87e45405d9b955bb49bb4432.png相比之下,LLM增强的自训练对所有选择策略都表现出一致的上升趋势,这表明所选择的数据是高质量的,适应过程是渐进的。这一结果突出了将LLM纳入自训练迭代过程的可行性和有效性,实现了从源域到目标域的更细粒度的迁移。

来自GRsConf的伪数据

在基于LLM增强自训练的跨域句法成分解析中,性能提升的关键在于所选择的伪数据是否逐渐向目标域靠拢。LLM生成过程和选择策略从两个相反的方向指导迭代:LLM生成的原始文本逐步向目标域偏移,而选择标准旨在确保伪数据保持接近源域。因此,我们分析了评论域的最佳选择策略GRsConf,并考察了每次迭代中所选择的伪数据的分布。同时,使用GRs的JS散度来测量所选伪数据与源域和目标域之间的距离。如图5所示,所选伪数据与源域的距离逐渐增大,而与目标域的距离逐渐减小。趋势表明,域迁移在第一次迭代中是最小的,在第二次和第三次迭代中发生了更多的适应,并最终在第四次迭代中稳定下来。这种距离的演化趋势表明领域迁移过程是渐进的,印证了GRsConf选择策略结合LLM增强自训练的跨域句法解析方法的有效性。0895298bb60993af59e4df8fed4dd60f.png

目标句的影响

采用基于GRsConf的伪数据选择方法在评论领域进行了对比实验。如表2所示,可以得出结论,句子的数量不会显著影响最终的目标域解析器。c0679eb88eee179b52db3dd1b37467ef.png

GRs的影响

此外,我们用5个目标域句子建立了LLM生成过程,省去了语法规则的引入。从表3所示的实验结果可以看出,在没有语法规则的情况下,解析器的性能要低于标准的LLM增强的自训练方法。这表明,用语法规则约束LLM的生成是一个合理的选择。12c4fc1378cbdde51d1936520f8ec695.png

总结

提出了一种用于句法成分解析中的跨域自适应的增强自训练方法。通过利用LLM的生成并将其整合到自训练过程中,该方法大大提高了跨域的成分解析性能。并有效地将高置信度选择标准与基于语法规则的选择相结合,逐步使训练数据更接近目标域。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

2251385e4b7795b7be9f4330943a8bb5.png

id:DLNLPer,记得备注呦

e5aba27fb4f42116c91f291adcf68aca.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/126525.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JavaEE初阶学习:Linux 基本使用和 web 程序部署

1.Linux的基本认识 Linux 是一个操作系统.(搞管理的系统) 和Windows都是同类产品~~ Linux 实际的场景: 1.服务器 2.嵌入式设备 3.移动端(手机)Android 其实就是Linux 1991年,还在读大学的 芬兰人 Linus Benedict Torvalds,搞了一个Linux 这样的系统0.01版,正式发布了~ 后…

Docker学习——⑥

文章目录 1、什么是存储卷?2、为什么需要存储卷?3、存储卷分类4、管理卷 Volume5、绑定卷 bind mount6、临时卷 tmpfs7、综合实战-MySQL 灾难恢复8、常见问题 1、什么是存储卷? 存储卷就是将宿主机的本地文件系统中存在的某个目录直接与容器内部的文件系统上的某一目录建立…

js各种简单事件处理(整理)

**## 获取当天昨天日期** // 当天日期 const today new Date();// 格式化当天日期为 YYYY-MM-DD 格式 const formattedToday today.toISOString().slice(0, 10);// 昨天日期 const yesterday new Date(); yesterday.setDate(yesterday.getDate() - 1);// 格式化昨天日期为 Y…

并查集模版以及两道例题

💯 博客内容:并查集 😀 作  者:陈大大陈 🚀 个人简介:一个正在努力学技术的准C后端工程师,专注基础和实战分享 ,欢迎私信! 💖 欢迎大家:这里是C…

DVWA - 2

文章目录 SQL Injectionlowmediumhigh SQL Injection low 输入 1,可以展示 id 1 的人员信息:输入 1’,有报错信息。可以看出是mysql数据库,‘‘1’’’ 去除两边的引号,再去除1两端的引号,可以看出闭合符…

Thales hsm是什么意思,有什么作用?

Thales HSM是一种硬件安全模块(Hardware Security Module,HSM),是Thales公司开发的一种安全设备,用于保护和管理密码和数字证书。HSM是一种物理设备,通常用于需要高度安全性的环境中,如政府机构、金融机构、大型企业等…

底座(基座)模型是如何训练的?

我们把LLM的基本训练步骤分为两步,预训练和对齐;预训练我们非常熟悉,是bert-finetuning时代的基本原理,只不过LLM一般遵循自回归的逻辑,因此使用GPT模型的预训练方式:CLM(具备因果关系的MLM&…

【Java 进阶篇】Java Filter 过滤器拦截路径配置详解

过滤器(Filter)是 Java Web 应用中一种强大的组件,它可以用于在请求到达目标资源之前或响应返回客户端之前执行一些预处理或后处理操作。其中,过滤器的拦截路径配置是非常重要的,它决定了过滤器会拦截哪些请求。在本文…

Kotlin系列之注解详解

目录 注解:file:JvmName 注解:JvmField 注解:JvmOverloads 注解:JvmStatic 注解:JvmMultifileClass 注解:JvmSynthetic 注解:file:JvmName file:JvmName(“XXX”) 放在类的最顶层&#x…

浏览器添加油猴(tampermonkey)扩展

msedge浏览器为例 1.打开msedge浏览器 2.点击右上角省略号 3.点击扩展 4.点击管理扩展 5.点击获取 Microsoft Edge 扩展 6.搜索 tampermonkey 7.获取自己想要安装的油猴

kubernetes helm

目录 一、helm 二、部署helm 三、封装chart包 四、上传chart到OCI仓库 五、部署wordpress博客系统 六、helm部署storageclass 七、helm部署ingress-nginx 八、helm部署metrics-server 九、kubeapps 一、helm Helm是Kubernetes 应用的包管理工具,主要用来…

经销商管理怎么做?

有人说,谁占据了渠道,谁就拥有了销售的大半个江山。在渠道为王的时代,每个企业都想快速打开市场,以渠道铺设自己的销路,捞取一桶桶金。因此,占领渠道,将渠道管理好是企业,尤其是快消…

K8S概念与架构

K8S概念与架构 一、Kubernetes 概述1、K8S 是什么2、为什么要用 K8S3、k8s介绍二、Kubernetes 集群架构与组件2.1、Master核心组件 2.2、Node核心组件 三、Kubernetes 核心概念3.1、Pod 控制器 一、Kubernetes 概述 1、K8S 是什么 K8S 的全称为 Kubernetes (K12345678S)&…

如何用Excel软件制作最小二乘法①

一、用自带的选项(不推荐),因为感觉只是近似,虽然结果一样 1.在Excel中输入或打开要进行在excel中输入或打开要进行最小二乘法拟合的数据,如图所示。 2.按住“shift”键的同时,用鼠标左键单击以选择数据&a…

linux 显卡驱动 cuda 离线安装

1、 安装显卡驱动: Download NVIDIA, GeForce, Quadro, and Tesla Drivers (1)注意选择对应的cuda版本,和系统版本,并下载 (2)

element-Cascader级联选择器用法?

html <el-form-item label"行业选择" :label-width"formLabelWidth"><div class"m-4"><el-cascader v-model"form.tradeid" :options"options" :props"props" /></div></el-form-ite…

FPGA高端项目:图像缩放+GTX+UDP架构,高速接口以太网视频传输,提供2套工程源码加QT上位机源码和技术支持

目录 1、前言免责声明本项目特点 2、相关方案推荐我这里已有的 GT 高速接口解决方案我这里已有的以太网方案我这里已有的图像处理方案 3、设计思路框架设计框图视频源选择IT6802解码芯片配置及采集动态彩条跨时钟FIFO图像缩放模块详解设计框图代码框图2种插值算法的整合与选择 …

代码随想录算法训练营Day 47 || 198.打家劫舍、213.打家劫舍II、337.打家劫舍 III

198.打家劫舍 力扣题目链接(opens new window) 你是一个专业的小偷&#xff0c;计划偷窃沿街的房屋。每间房内都藏有一定的现金&#xff0c;影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统&#xff0c;如果两间相邻的房屋在同一晚上被小偷闯入&#xff0c;系…

CocosCreator | 2.3.3及后续版本浏览器无法断点和控制台不显示错误代码路径的解决方案(cocos代码报错无法定位的问题)

在2.3.3正式版的官方介绍中有这么一项&#xff1a; 提升网页预览时的加载速度 为了进一步提升开发效率&#xff0c;我们优化了网页预览时的脚本加载速度。不论是对引擎还是项目中的代码&#xff0c;载入速度都获得了提升。特别是在开启自定义引擎&#xff0c;或者使用手机扫码…

AIGC视频生成/编辑技术调研报告

人物AIGC&#xff1a;FaceChain人物写真生成工业级开源项目&#xff0c;欢迎上github体验。 简介&#xff1a; 随着图像生成领域的研究飞速发展&#xff0c;基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天&#xff0c;视频生成/编辑技术也引起…
最新文章