国科大-自然语言处理复习

自然语言处理复习

  • 实体关系联合抽取
    • 流水线式
    • 端到端方法
  • 检索式问答系统
    • 流水线方式
      • 信息检索(IR)阶段
      • 阅读理解(RC)阶段
      • 基于证据强度的重排
      • 基于证据覆盖的重排
      • 结合不同类型的聚合
    • 端到端方式
      • Retriever-Reader的联合学习
      • 基于预训练的Retriever-Free方法
  • 情感分析
    • 联合三元组抽取

谨以此博客作为复习期间的记录

实体关系联合抽取

流水线式

  • 流水线式抽取(Pipline): 把关系抽取的任务分为两个步骤,首先进行实体识别,再抽取出两个实体的关系。
    在这里插入图片描述

  • 联合抽取(Joint Extraction): 端到端,同时进行实体和关系的抽取。流水线式抽取会导致误差在各流程中传递和累加,而联合抽取的方式则实现难度更大

端到端方法

在这里插入图片描述
流水线式抽取和新标注策略的实体关系联合抽取都可以和序列标注结合起来,
在这里插入图片描述

在这里插入图片描述

检索式问答系统

流水线方式

Document Retriever 和 Document Reader 分两步

  • Document Retriever:通过TF-IDF检索维基百科中与问题相关的Top K个文档
  • Document Reader:将答案抽取转化为抽取式阅读理解问题
  • • 输入:一个文档段落,一个自然语言描述的问题
  • • 输出:段落中抽取的答案片段
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

论文中提出的模型结构主要包括两个阶段:信息检索(IR)和阅读理解(RC),以及两种答案重排方法:基于证据强度的重排和基于证据覆盖的重排。以下是这些模型组件的详细介绍:

信息检索(IR)阶段

  • 目标:检索与给定问题最相关的网页段落。
  • 方法:使用搜索引擎(例如谷歌或必应)来找到与问题最相关的顶级网页段落。
  • 特点:与标准阅读理解任务不同,在开放领域设置中,RC模型通常在远程监督下进行训练。这意味着在训练阶段,RC模型会将包含正确答案的所有段落与问题进行匹配

阅读理解(RC)阶段

  • 目标:从检索到的段落中提取答案。
  • 方法:使用阅读理解模型(例如R3模型)来从这些段落中提取候选答案。
  • 特点:与单个固定段落的标准阅读理解任务不同,开放领域问答需要处理多个段落,并从中提取候选答案

基于证据强度的重排

  • 目的:利用段落中出现答案的频率或概率来评估答案的强度。
  • 实现:计算每个答案在顶级答案候选中出现的次数,或者将RC模型为每个答案跨度分配的概率相加,以确定最终预测

基于证据覆盖的重排

  • 目的:根据不同段落的证据如何覆盖问题来排列答案候选。
  • 实现:首先将包含答案的段落连接成一个“伪段落”,然后使用匹配LSTM模型来衡量这个伪段落如何涵盖问题的各个方面

结合不同类型的聚合

  • 方法:将两种重排方法的输出进行加权组合,无需额外训练。
  • 特点:首先使用softmax重新归一化两种基于强度的重排器和一个基于覆盖的重排器提供的前5个答案得分,然后对相同答案的得分进行加权求和,选择得分最高的答案作为最终预测

这种结合信息检索、阅读理解和多种重排策略的方法充分利用了多个段落的证据,有效地提高了开放领域问答系统的性能。

端到端方式

Retriever-Reader的联合学习

Lee et al., Latent Retrieval for Weakly Supervised Open Domain Question Answering, ACL,2019
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于预训练的Retriever-Free方法

Petroni et al. Language Models as Knowledge Bases? ACL, 2019

情感分析

联合三元组抽取

将问题转为一个序列生成问题
统一输入输出的标准
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

A Unified Generative Framework for Aspect-Based Sentiment Analysis

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/327090.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

仿真机器人-深度学习CV和激光雷达感知(项目2)day01【项目介绍与环境搭建】

文章目录 前言项目介绍功能与技术简介硬件要求环境配置虚拟机运行项目demo 前言 💫你好,我是辰chen,本文旨在准备考研复试或就业 💫本文内容是我为复试准备的第二个项目 💫欢迎大家的关注,我的博客主要关注…

图像处理:孤立点的检测

图像处理-孤立点的检测 孤立点的检测在图像处理中通常涉及到检测图像中的突变或者边缘,而使用二阶导数是一种常见的方法。一阶导数可以帮助找到图像中的边缘,而二阶导数则有助于检测边缘上的峰值,这些峰值可能对应于孤立点或者特殊的图像结构…

Zookeeper使用详解

介绍 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布…

谷粒商城-缓存使用分布式锁SpringCache(5天)

缓存使用 1.1.1 哪些数据适合放入缓存 即时性、 数据一致性要求不高的 访问量大且更新频率不高的数据(读多, 写少) 例如:电商类应用, 商品分类, 商品列表等适合缓存 本地缓存 使用Map进行本地缓存 本地缓存…

【Redis】AOF 源码

在上篇, 我们已经从使用 / 机制 / AOF 过程中涉及的辅助功能等方面简单了解了 Redis AOF。 这篇将从源码的形式, 进行深入的了解。 1 Redis 整个 AOF 主要功能 Redis 的 AOF 功能概括起来就 2 个功能 AOF 同步: 将客户端发送的变更命令, 保存到 AOF 文件中AOF 重写: 随着 Red…

MySQL数据库软件详解二

MySQL的配置文件 my.ini 概述:MySQL 的配置文件 参数名称说明port表示 MySQL 服务器的端口号basedir表示 MySQL 的安装路径datadir表示 MySQL 数据文件的存储位置,也是数据表的存放位置default-character-set表示服务器端默认的字符集default-storage…

系统性学习vue-组件及脚手架

书接上文 Vue组件及脚手架 初始化脚手架说明步骤 分析脚手架结构render函数修改默认配置ref属性props配置mixin 混入/混合定义混合局部混合全局混合 插件scoped样式安装less-loader 浏览器的本地存储 webStoragelocalStroage 本地存储sessionStorage 会话存储 组件自定义事件绑…

SQLServer 为角色开视图SELECT权限,报错提示需要开基础表权限

问题: 创建了个视图V,里面包含V库的a表,和T库的b表 为角色开启视图V的SELECT权限,提示T库的b表无SELECT权限,报错如下 解决方案: ①在T库建个视图TV,里面包含b表(注意是在b表的对…

【Qt 学习之路】关于C++ Vlc视频播放

文章目录 1、简介2、效果2.1、视频2.2、动态图 3、核心代码3.1、判断视频3.2、视频核心类调用3.3、视频核心类3.3.1、头文件3.3.2、源文件 1、简介 最近有童鞋咨询VLC相关的问题,公布一个 5年前 编写的 VLC示例 代码供参考学习。包括正常对视频各种常用的操作&…

微信小程序快速入门03

🏡浩泽学编程:个人主页 🔥 推荐专栏:《深入浅出SpringBoot》《java项目分享》 《RabbitMQ》《Spring》《SpringMVC》 🛸学无止境,不骄不躁,知行合一 文章目录 前言一、生命周期生…

【Java数据结构】04-图(Prim,Kruskal,Dijkstra,topo)

5 图 推荐辅助理解 【视频讲解】bilibili Dijkstra Prim 【手动可视化】Algorithm Visualizer (https://algorithm-visualizer.org/) 【手动可视化】Data Structure Visualizations (https://www.cs.usfca.edu/~galles/visualization/Algorithms.ht…

基于k8s Deployment的弹性扩缩容及滚动发布机制详解

k8s第一个重要设计思想:控制器模式。k8s里第一个控制器模式的完整实现:Deployment。它实现了k8s一大重要功能:Pod的“水平扩展/收缩”(horizontal scaling out/in)。该功能从PaaS时代开始就是一个平台级项目必备编排能…

cookie和session的工作过程和作用:弥补http无状态的不足

cookie是客户端浏览器保存服务端数据的一种机制。当通过浏览器去访问服务端时,服务端可以把状态数据以key-value的形式写入到cookie中,存储到浏览器。浏览器下次去服务服务端时,就可以把这些状态数据携带给服务器端,服务器端可以根…

OceanBase架构概览

了解一个系统或软件,比较好的一种方式是了解其架构,下图是官网上的架构图,基于V 4.2.1版本 OceanBase 使用通用服务器硬件,依赖本地存储,分布式部署在多个服务器上,每个服务器都是对等的,数据库…

如何画出优秀的系统架构图-架构师系列-学习总结

--- 后之视今,亦犹今之视昔! 目录 早期系统架构图 早期系统架构视图 41视图解读 41架构视图缺点 现代系统架构图的指导实践 业务架构 例子 使用场景 画图技巧 客户端架构、前端架构 例子 使用场景 画图技巧 系统架构 例子 定义 使用场…

Keepalived 双机热备

本章主要内容: Keepalived 双机热备基础知识学会构建双机热备系统学会构建LVSHA 高可用群集 简介 在这个高度信息化的IT时代,企业的生产系统,业务运营,销售和支持,以及日常管理等环节越来越依赖于计算机和服务&#…

class_1:qt的安装及基本使用方式

一、选择组件: 1、windows编译工具:MinGW 7.30 32-bit MinGW 7.30 64-bit 2、QT源代码:sources 3、QT的绘图模块:QT charts 4、QT虚拟键盘:QT Virtual Keyboard 5、QT Creational 4.12.2 GDB 二、新建QT项目 文…

【MATLAB】 HANTS滤波算法

有意向获取代码,请转文末观看代码获取方式~ 1 基本定义 HANTS滤波算法是一种时间序列谐波分析方法,它综合了平滑和滤波两种方法,能够充分利用遥感图像存在时间性和空间性的特点,将其空间上的分布规律和时间上的变化规律联系起来…

构建 Maven 项目时可能遇到的问题

文章目录 构建 Maven 项目时可能遇到的问题1. Maven 自动下载依赖后,在本地仓库中找不到2. 运行时报错如下:Error: java 不支持发行版本 53. 创建 Maven 项目后 pom.xml 文件为空4. 在 Settings 中 Update 了阿里云远程仓库,导致整个项目不能…

美国智库发布《用人工智能展望网络未来》的解析

文章目录 前言一、人工智能未来可能改善网络安全的方式二、人工智能可能损害网络安全的方式三、人工智能使用的七条建议四、人工智能的应用和有效使用AI五、安全有效地使用人工智能制定具体建议六、展望网络未来的人工智能(一)提高防御者的效率&#xff…