用于生成信息提取的大型语言模型综述

图片

论文地址https://arxiv.org/pdf/2312.17617.pdf

代码仓库https://github.com/quqxui/Awesome-LLM4IE-Papers

信息抽取(IE)旨在从纯自然语言文本中提取结构化知识(如实体、关系和事件)。最近,生成式大型语言模型(LLMs)在文本理解和生成方面展示出了非凡的能力,可以在各个领域和任务中进行泛化。因此,许多研究提出了利用 LLMs 的能力,并基于生成范式为 IE 任务提供可行解决方案。

为了对LLMs在IE任务中的最新进展进行全面系统的回顾和探索,来自中国科学技术大学、香港城市大学和腾讯的研究人员共同撰写了本综述。本综述调查了这一领域中最近的进展,首先通过将这些工作按照不同的IE子任务和学习范式进行分类,提供了广泛的概述,同时对最先进的方法进行了实验分析,并发现了LLMs在IE任务中的新趋势。然后,探讨了一些技术上的insight和值得在未来的研究中进一步探索的方向。此外,作者们还维护了一个公仓库,并持续更新相关资源。

信息抽取是自然语言处理中的一个关键领域,它将纯文本转化为结构化知识。IE是许多下游任务的基础要求,例如知识图谱构建、知识推理和问答。典型的IE任务包括命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)。与此同时,大型语言模型(LLMs)的出现(例如GPT-4、Llama)极大地推动了自然语言处理的发展,它们在文本理解、生成和泛化方面具有强大的能力。因此,近年来对生成式 IE 方法的兴趣大幅增加,这些方法采用 LLMs 生成结构化信息,而不是从纯文本中提取结构化信息。与辨别式方法相比,这些方法在实际场景中可能更加实用,因为它们可以高效处理包含数百万实体的 schema,而不会出现明显的性能下降。

图片

图表 1  LLMs已经广泛应用于生成式信息抽取(IE)的研究中。这些研究涵盖了各种学习范式、多样化的LLM架构以及专门为单个子任务设计的框架,和能够同时处理多个子任务的通用框架。

一方面,LLMs 在各种IE任务的不同场景中吸引了研究人员的极大关注。除了在命名实体识别(NER)、关系抽取(RE)和事件抽取(EE)等单个 IE 任务中表现出色外,LLMs 还具有在通用格式中有效建模各种IE任务的能力。这是通过捕捉任务间的相互依赖关系,并通过指导性提示实现的效果。另一方面,最近的研究表明,LLMs 不仅可以通过微调从IE训练数据中学习,还可以在少样本甚至零样本的情况下,仅依靠上下文示例或指令来提取信息。

然而,对于上述两类研究工作:1)涵盖多个任务的通用框架;2)缺乏训练数据的场景,现有的综述研究并没有充分探索它们。

在这项综述中,我们对大型语言模型(LLMs)用于生成式信息抽取(IE)的研究工作进行了全面的探索。为了实现这一目标,我们主要使用两个分类法对现有的代表性工作进行分类:

(1)IE 子任务的分类法,旨在对使用 LLMs 单独或统一提取的不同类型的信息进行分类;(2)学习范式的分类法,对如何利用LLMs进行生成式IE的各种新方法进行分类。此外,我们还展示了专注于特定领域的研究,以及评估/分析了 LLMs 在 IE 中性能的研究。此外,我们还比较了几种代表性方法在不同设置下的效果,以更深入地了解它们的潜力和局限性,并对利用 LLMs 进行生成式 IE 的挑战和未来方向进行深入分析。据我们所知,这是关于使用 LLMs 进行生成式 IE 的首篇综述。

预备知识

生成式信息抽取任务可以用如下公式概况:

图片

其中 X=[x1, x2, ..., xn] 是待提取的文本序列, Y=[y1, y2, ..., ym] 是目标序列,P 是提示词。

信息抽取主要包括如下三个任务及其子任务:

  • Named Entity Recognition(NER)包括两个任务:Entity Identification和Entity Typing。前者任务涉及识别实体的范围(例如,“Steve”),而后者任务则专注于为这些识别出的实体赋予类型(例如,“PERSON”)。

  • Relation Extraction(RE)在不同的研究中可能有不同的设置。我们根据其他研究使用三个术语进行分类:

(1) Relation Classification指的是对给定的两个实体之间的关系类型进行分类;

(2) Relation Triplet 指的是识别关系类型以及相应的头实体和尾实体范围;

(3) Relation Strict指的是给出正确的关系类型、范围以及头实体和尾实体的类型。

  • Event Extraction(EE)可以分为两个子任务:

(1) Event Detection(在某些研究中也称为事件触发词提取)旨在识别和分类最能清晰表示事件发生的触发词和类型。

(2) Event Arguments Extraction旨在从句子中识别和分类作为事件中特定角色的论元。

图片

信息抽取任务

论文中首先对信息抽取(IE)的各个子任务涉及的相关技术进行全面介绍。还进行实验分析,评估各种方法在代表性数据集上的性能。

命名实体识别

命名实体识别 (NER) 是信息抽取的一个重要组成部分,可以看作是关系抽取 (RE) 和事件抽取 (EE) 的前身或子任务。这也是自然语言处理领域中的一项基本任务,因此吸引了研究人员的极大关注,以探索 llm 时代的新可能性。

表格 1 中展示了在 5 个主要数据集上的 NER 实验结果对比,我们可以从结果中观察到以下几点:

1) 少样本和零样本范式下的模型与 SFT 和 DA 范式下的模型仍然存在巨大的性能差距。

2) 尽管 backbone 之间的差异不大,但 ICL 范式下的不同方法之间有着明显性能差距。例如,GPT-NER在每个数据集上与其他方法的 F1 值至少有 6% 的差距,最高可达 19%。

3) 与 ICL 范式相比,在 SFT 范式下的不同模型性能只有微小的差异,即使它们的骨干参数可能相差数百倍。

表格 1:命名实体识别(NER)的Micro-F1比较结果。† 表明是判别式模型。我们展示了一些通用IE模型和判别式模型,以供比较。学习范式包括跨域学习(CDL)、零样本提示(ZS Pr)、上下文学习(ICL)、监督微调(SFT)、数据增强(DA)。Uni. ?表示模型是否为通用IE框架。所有后续表的设置都与此格式一致。

图片

关系抽取

关系抽取(RE)在信息抽取中也起着重要作用,正如上文中提到的,在不同的研究中,RE通常有不同的设置。

如表格 2 和表格 3 所示,我们统计发现,由于学习了多种任务之间的依赖关系,通用信息抽取模型通常偏向于解决更难的Relation Strict子任务,而特定任务的方法大多解决较为简单的RE子任务(如Relation Classification)。此外,与 NER 相比,可以发现不同方法在 RE 中的性能差异更为明显,这表明 LLM 在 RE 任务中的潜力仍有很大的挖掘空间。

表格 2:Relation Strict Extraction中的Micro-F1比较结果。† 表明是判别式模型。

图片

表格 3:Relation Classification中的Micro-F1比较结果。

图片

事件抽取

事件可以定义为在特定环境中发生的具体事件或事故。最近,许多研究旨在通过使用 LLMs 提取事件触发器和论据来理解事件并捕捉它们之间的相关性,这对各种推理任务至关重要。

在表格 4 中,我们收集了最近一些工作在最常用的EE数据集(ACE05)上的实验结果。可以看出,目前绝大多数方法都是基于 SFT 范式的,而使用 LLMs 进行零样本或少样本学习的方法较少。值得注意的是,表格中的生成式方法表现远远优于判别式方法,尤其是在 Arg-C 这一指标上,这表明生成式 LLMs 在 EE 中具有巨大的潜力。

表格 4:事件抽取在ACE05数据集上的实验结果对比。评测任务包括:触发词识别(Trg-I)、触发词分类(Trg-C)、论元识别(Arg-I)和论元分类(Arg-C)。† 表明是判别式模型。

图片

通用信息抽取框架

不同的信息抽取(IE)任务高度多样化,具有不同的优化目标和任务特定的模式,因此需要独立的模型来处理大量 IE 任务、设置和场景的复杂性。许多研究仅关注 IE 的一个子任务。然而,最近 LLMs 的进展促进了一些研究工作提出统一的生成式框架。该框架旨在对所有IE任务进行建模,捕捉 IE 的共同能力并学习跨多个任务的依赖关系。我们将通用框架分为两种格式:自然语言(基于NL-LLMs)和代码语言(基于Code-LLMs),以讨论它们如何使用统一的范式对这多个不同的任务进行统一建模,如图所示。

基于自然语言的方法将所有 IE 任务统一到一个通用的自然语言模式中;基于代码的方法通过生成具有通用编程模式的代码输出来统一IE任务。一般来说,NL-LLMs based 的方法在广泛的文本上进行训练,能够理解和生成人类语言,这使得提示和指令更加简洁和易于设计。然而,由于IE任务具有与大模型训练数据不同的独特语法和结构,NL-LLMs 可能难以产生非自然文本的输出。而作为一种形式化语言,代码具有准确表示不同模式下的知识的内在能力,这使得它更适合于结构预测。但是,基于代码的方法通常需要大量的文本来定义一个 Python 类,这反过来限制了上下文的样本大小。

通过实验比较,我们可以观察到,在大多数数据集上,统一的IE模型在命名实体识别(NER)、关系抽取(RE)和实体抽取(EE)任务中优于单个特定任务的模型。

图片

学习范式

同时,论文根据学习范式对所有方法进行了分类,包括有监督微调(使用标记数据对LLM进行进一步的IE任务训练)、小样本学习(指通过训练或上下文学习从少量标记示例中进行泛化,包括小样本微调和上下文学习)、零样本学习(指在没有获得特定IE任务的训练数据的情况下生成答案,包括零样本提示词设计,跨领域学习,跨类型学习)、以及数据增强(指通过使用LLM对现有数据应用各种转换来增强信息,包括数据标注,知识检索,反向生成),以突出使用LLM进行IE的常用方法。

以数据增强方法为例,数据增强涉及生成有意义且多样化的数据,以有效地增强训练示例或信息,同时避免引入不真实、误导性和偏移的模式。最近LLM在数据生成任务中也展示出了卓越的性能,这引起了许多研究人员使用LLM来生成用于IE的合成数据。如图所示,它可以大致分为三种策略。

1)数据标注 这种策略直接使用LLM生成标注数据。

2)知识检索 这种策略从LLMs中检索相关知识用于辅助IE。

3)反向生成 这种策略使用LLMs根据结构数据生成自然文本或问题,与大模型的训练范式相一致。

图片

总的来说,这些策略各有优劣。虽然数据标注可以直接满足任务需求,但 LLMs 的结构化生成能力仍需改进。知识检索可以提供关于实体和关系的额外信息,但它存在幻觉问题并引入噪声。反向生成与 LLMs 的问答范式相符,然而,它需要结构化数据,并生成的文本和需要解决的领域之间也可能存在差距。

讨论和未来方向

该团队总结了一些仍待解决的挑战和值得讨论的研究方向:

  • 通用信息抽取

以往的生成式 IE 方法和基准往往针对特定领域或任务进行定制,限制了它们的泛化能力。尽管最近提出了一些使用 LLM 的统一方法,但它们仍然存在一定的局限性(例如,长上下文输入限制,结构化输出的不对齐)。因此,进一步发展能够灵活适应不同领域和任务的通用 IE 框架是一个有前景的研究方向。

  • 低资源信息抽取

基于 LLM 的生成式 IE 系统在资源有限的场景中仍然面临挑战。有必要进一步探索 LLM 的上下文学习,特别是在改进示例选择方面。未来的研究应考虑发展稳健的跨领域学习技术,例如领域自适应或多任务学习,以利用资源丰富的领域外的知识。此外,还应探索使用 LLM 的高效数据标注策略。

  • 高效的提示词设计

设计有效的指令对 LLM 的性能有重要影响。指令设计的一个方面是构建输入和输出对,以更好地与 LLM 的预训练阶段(例如代码生成)对齐。另一个方面是优化指令,以便更好地理解和推理模型(例如思维链),通过鼓励 LLM 进行逻辑推理或可解释的生成。此外,研究人员可以探索交互式指令设计(例如多轮问答),在这种情况下,LLM 可以自动迭代地改进生成的抽取结果或提供反馈。

  • 开放式场景信息抽取

在开放式信息抽取中,IE 模型面临更大的挑战,因为它们不提供任何候选标签集,完全依赖模型理解任务的能力。LLM 凭借其知识和理解能力,在某些开放式信息抽取任务中具有显著优势。然而,在更具挑战性的任务中仍然存在性能不佳的情况,需要研究人员进一步探索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/309243.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

初识 Elasticsearch 应用知识,一文读懂 Elasticsearch 知识文集(2)

🏆作者简介,普修罗双战士,一直追求不断学习和成长,在技术的道路上持续探索和实践。 🏆多年互联网行业从业经验,历任核心研发工程师,项目技术负责人。 🎉欢迎 👍点赞✍评论…

手拉手springboot3整合mybatis-plus多数据源

环境介绍 技术栈 springbootmybatis-plusmysql 软件 版本 mysql 8 IDEA IntelliJ IDEA 2022.2.1 JDK 17 Spring Boot 3.1.7 dynamic-datasource 3.6.1 mybatis-plus 3.5.3.2 加入依赖 <dependency><groupId>com.baomidou</groupId><arti…

WAVENET: A GENERATIVE MODEL FOR RAW AUDIO

ABSTRACT 这篇论文提出了WaveNet&#xff0c;一个生成原始音频波形的深度神经网络。这是一个完全的概率自回归模型&#xff0c;它基于之前已经生成的所有样本&#xff0c;来预测当前音频样本的概率分布&#xff1b;不过&#xff0c;我们将会展示它可以在每秒数万采样率的音频数…

精华整理几十个Python数据科学、机器学习、深度学习、神经网络、人工智能方面的核心库以及详细使用实战案例,轻松几行代码训练自己的专有人工智能模型

精华整理几十个Python数据科学、机器学习、深度学习、神经网络、人工智能方面的核心库以及详细使用实战案例,轻松几行代码训练自己的专有人工智能模型。 机器学习 人工智能的核心,是使计算机具有智能的根本途径。机器学习专注于算法,允许机器学习而不需要编程,并在暴露于新…

【VTKExample::Visualization】第四期 BLOW

很高兴在雪易的CSDN遇见你 VTK技术爱好者 QQ:870202403 前言 本文分享Blow样例,用于挤出吹塑工艺的有限元分析,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(^U^)ノ~YO 目录 前言 1. Blow样例

求幸存数之和 - 华为OD统一考试

OD统一考试&#xff08;C卷&#xff09; 分值&#xff1a; 100分 题解&#xff1a; Java / Python / C 题目描述 给一个正整数列nums&#xff0c;一个跳数jump&#xff0c;及幸存数量left。运算过程为:从索引为0的位置开始向后跳&#xff0c;中间跳过 J 个数字&#xff0c;命中…

netdisk-fast-download强大的网盘直链解析工具源码

源码介绍 开源的网盘直链解析工具 netdisk-fast-download&#xff0c;这款强大的工具能够解析各类网盘直链&#xff0c;实现文件的快速上传与下载。目前已完美支持蓝奏云、奶牛快传、移动云空间、UC网盘、夸克网盘、小飞机盘、亿方云以及123云盘等众多知名网盘平台。 直链&am…

Spark---行动算子RDD

文章目录 1.行动算子1.1 reduce1.2 collect1.3 first1.4 count1.5 take1.6 takeOrdered1.7 aggregate1.8 fold1.9 countByKey1.10 countByValue1.11 save 相关算子1.12 foreach 1.行动算子 Spark的行动算子是触发作业执行的方法&#xff0c;它们会直接触发计算并返回结果。 行…

【集合大练习】---------------简易学生管理系统

目标&#xff1a; 实现学生对象新增&#xff0c;删除&#xff0c;查看&#xff0c;对象信息修改 整体实现思路&#xff1a; 1.定义学生类-------------创建学生对象 2.管理界面代码编写-------------命令提示面板 3.添加学生的代码编写---------add功能实现 4.查看学生信…

PPT插件-大珩助手-清除同类

清除同类-颜色 对于选定的形状&#xff0c;删除相同颜色 清除同类-文本 删除当前幻灯片中的文本对象 清除同类-非文本 删除当前幻灯片中的非文本对象 清空当页 删除当前幻灯片中的所有对象 选中的形状动画 删除选中的对象上的形状动画 当前页形状动画 对于当前页中的…

HDFS相关API操作

文章目录 API文档环境配置API操作准备工作创建文件夹文件上传文件下载文件删除文件的更名和移动获取文件详细信息 API文档 HDFS API官方文档&#xff1a;https://hadoop.apache.org/docs/r3.3.1/api/index.html 环境配置 将Hadoop的Jar包解压到非中文路径&#xff08;例如D:…

移动通信原理与关键技术学习之信道编解码(5)

先回顾调制的过程&#xff1a;调制就是对信号源的信息进行处理加到载波上&#xff0c;使其变为适合于信道传输的形式的过程&#xff0c;就是使载波随信号而改变的技术。 1.什么是IQ调制&#xff1f; 答&#xff1a;将数据分为两路&#xff0c;分别进行载波调制&#xff0c;两…

多维时序 | Matlab实现RIME-HKELM霜冰算法优化混合核极限学习机多变量时间序列预测

多维时序 | Matlab实现RIME-HKELM霜冰算法优化混合核极限学习机多变量时间序列预测 目录 多维时序 | Matlab实现RIME-HKELM霜冰算法优化混合核极限学习机多变量时间序列预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现RIME-HKELM霜冰算法优化混合核极限学…

2024年中国杭州|网络安全技能大赛(CTF)正式开启竞赛报名

前言 一、CTF简介 CTF&#xff08;Capture The Flag&#xff09;中文一般译作夺旗赛&#xff0c;在网络安全领域中指的是网络安全技术人员之间进行技术竞技的一种比赛形式。CTF起源于1996年DEFCON全球黑客大会&#xff0c;以代替之前黑客们通过互相发起真实攻击进行技术比拼的…

【开源】基于JAVA+Vue+SpringBoot的厦门旅游电子商务预订系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 景点类型模块2.2 景点档案模块2.3 酒店管理模块2.4 美食管理模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 学生表3.2.2 学生表3.2.3 学生表3.2.4 学生表 四、系统展示五、核心代码5.1 新增景点类型5.2 查询推荐的…

redis复习笔记04(小滴课堂)

新版SpringBoot2.X项目创建 在线创建springboot项目选择web和redis依赖就行。 SpringBoot2.x整合Redis客户端单元测试 SpringDataRedis配置RedisTemplate介绍 1.编写配置文件 2.单元测试进行测试&#xff1a; 可以看到我们设置进的值&#xff0c;乱码后面会解决。 获取不到设…

网络正常运行时间监控工具

正常运行时间是衡量系统可靠性的指标&#xff0c;表示为机器工作和可用时间的百分比。当提到 IT 网络时&#xff0c;正常运行时间是衡量网络设备、网站和其他服务的可用性的指标。网络正常运行时间通常以百分位数来衡量&#xff0c;例如“五个 9”&#xff0c;这意味着系统在 9…

RPA财务机器人在厦门市海沧医院财务管理流程优化汇总的应用RPA全球生态 2024-01-05 17:27 发表于河北

目前国内外研究人员对于RPA机器人在财务管理流程优化领域中的应用研究层出不穷&#xff0c;但现有研究成果主要集中在财务业务单一领域&#xff0c;缺乏财务管理整体流程一体化管控的研究。RPA机器人的功能绝非单一的财务业务处理&#xff0c;无论从自身技术发展&#xff0c;或…

如何使用vite框架封装一个js库,并发布npm包

前言介绍 最近&#xff0c;公司项目上需要把很多公用函数封装起来&#xff0c;作为一个公共的库使用。以前的做法是使用webpack或者Rollup。Rollup和Webpack都是常用的JavaScript模块打包工具&#xff0c;用于构建现代化的Web应用程序。但是&#xff0c;不管是webpack或者Roll…

Hive基础题-1

别看我&#xff0c;不看答案我也不会写 正因为不会写&#xff0c;所以才要每天一练 本地hive练习题 SET hive.exec.mode.local.autotrue; -- 默认 false SET hive.exec.mode.local.auto.inputbytes.max50000000; SET hive.exec.mode.local.auto.input.files.max5; -- 默认 4# …