Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings

Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings

Abstract

该论文提出了一种无监督的方法,使用每个文档中相关单词之间的文本相似度以及每个类别的关键字字典将文档分为几类。所提出的方法通过人类专业知识和语言模型丰富了类别标签,为低成本文本分类提供了一种实用的替代方案。

introduction

本文讨论了文档分类,这是机器学习中的一项标准任务,包括电子邮件过滤和新闻文章聚类等应用程序。传统的文本分类过程依赖于监督或半监督方法,这些方法需要标注的数据才能达到足够的准确性。但是,拟议的方法旨在使用每份文档中相关单词之间的文本相似性以及通过人类专业知识和语言模型丰富每个类别的关键字字典进行无监督分类。当需要低成本文本分类时,这种方法提供了另一种解决方案,其在运营风险事件分类中的应用示例就说明了这一点,这些应用来自银行部门管理定期与监管机构共享的描述各种类型的风险(包括内部/外部欺诈、网络安全问题等)的历史数据集。

contributions

本文的主要贡献是提出了一种无监督的方法,使用文本相似度和每个类别的关键字字典将文档分为几类。该方法通过人类专业知识和语言模型丰富了类别标签,为低成本文本分类提供了一种实用的替代方案。此外,对5个标准语料库的实验表明,与仅依赖人类专业知识相比,所提出的方法提高了F1分数,也可以与简单的监督方法相提并论。最后,运营风险事件分类中的一个应用示例说明了这种方法在其最初的灵感领域之外如何在实践中使用。

Literature survey

本文的文献调查侧重于为克服标准文本分类中对大量带注释数据的要求而提出的技术。大多数方法包括半监督方法,这些方法利用一小部分带标签的文档为其余文档导出标签,例如Nigam等人的期望最大化(EM)算法(2000)。重复此过程直到收敛,并且已成功生成无需完全手动注释的带标签示例。

Limitations

本文的局限性包括:

  • 所提出的方法依赖于每个类别的关键字字典,该字典可能不够全面或准确,无法涵盖某些领域中文档的全部范围和复杂性。
  • 尽管与仅依靠人类专业知识相比,实验显示出令人鼓舞的结果,但其性能仍低于使用带有大型标签数据集的监督方法所达到的效果。因此,当需要高精度分类时,它可能不适合。
  • 尽管超出其原始灵感领域的应用示例说明了这种方法如何在实践中更普遍地在不同行业中发挥作用,但用例在被广泛采用之前需要进一步验证。

Practical implications

本文的实际含义是,它提出了一种无监督的方法,使用文本相似度对文档进行分类,并为每个类别提供一个通过人类专业知识和语言模型丰富而丰富的关键字词典。当需要低成本文本分类时,这种方法提供了一种具有成本效益的替代方案,如其最初灵感来自的银行部门管理领域之外的运营风险事件分类中的应用示例所示。所提出的方法可用于需要以合理的精度进行文档分类的不同行业,无需大型带标签的数据集或大量的手动注释工作。

Methods

本文中使用的方法包括:

  • 基于每个文档中相关单词之间的文本相似度以及每个类别的关键字字典的无监督文本分类。
  • 通过人类专业知识和语言模型(包括通用和特定领域)丰富标签词典。
  • 在文档方面执行标准清理步骤,以在处理之前删除不相关的信息。
  • 在类别标签方面实施了一系列丰富步骤,以便迭代地扩展标签词典。

dataset

该论文使用了五个标准文本分类语料库进行评估。论文简要描述了这些数据集,包括20NewsGroup2、R8、R52、Ohsumed和Reuters-21578。作者汇总了每个数据集的训练集和测试集,将其用作整个语料库,因为他们采用了无监督方法,不需要在训练测试拆分之间进行标记数据分离。

Results

论文的结果表明,拟议的使用文本相似度对文档进行分类的无监督方法以及通过人类专业知识和语言模型丰富的每个类别的关键字字典的表现优于简单的无监督基线,从而使所有语料库的F1分数翻了一番。对五个标准文本分类数据集的实验表明,除了Yahoo-Answers数据集的性能相似的Yahoo-Answers数据集外,仅使用特定领域的嵌入在大多数指标上的性能要优于单独使用通用嵌入的性能。仅如一些实验结果所示,与嵌入相比,组合丰富,可以适度提高性能。总体而言,当需要低成本文本分类时,该方法可以提供替代方案,无需大型带标签的数据集或大量的手动注释工作,同时与某些条件下的监督方法相比,可以实现合理的准确性。

Conclusions

该论文的结论是,与某些条件下的监督方法相比,使用文本相似度对文档进行分类的无监督方法以及通过人类专业知识和语言模型丰富的每个类别的关键字字典可以提供合理的准确性。当需要低成本文本分类时,所提出的方法提供了一种经济实惠的替代方案,无需大型带标签的数据集或大量的手动注释工作,如其在最初启发的银行部门管理领域之外的运营风险事件分类中的应用示例所示。进一步的研究可以探讨诸如ELMO(Peters等人,2018年)和BERT(Devlin等人,2018年)之类的单词嵌入的最新进展能否为这种方法带来更多好处。

Future works

该论文提出了几项可以探索的未来作品,包括:

-研究如何使用诸如ELMO和BERT之类的单词嵌入方面的最新进展,以进一步提高性能。
-探索丰富人类专业知识和语言模型以外的类别标签的不同方法,例如使用外部知识库或本体论。
-针对复杂程度和领域特异性不同的其他文本分类任务评估所提出的方法。
-将这种无监督方法与更复杂的监督方法(例如标记数据可用时的深度学习架构)进行比较。

这些潜在的研究途径可以帮助扩展本文提出的发现,同时还可以为如何在不牺牲准确性的情况下最好地进行低成本文本分类提供新的见解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/541.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

经典文献阅读之--Dynamic-VINS(动态点滤除VINS)

0. 简介 现在的SLAM算法在静态环境中表现良好,但在动态环境中很容易失败。最近的工作将基于深度学习的语义信息引入到SLAM系统以减轻动态对象的影响。然而,在资源受限的机器人的动态环境中应用鲁棒定位仍然具有挑战性。所以《RGB-D Inertial Odometry f…

ES+Redis+MySQL,这个高可用架构设计太顶了!

一、背景 会员系统是一种基础系统,跟公司所有业务线的下单主流程密切相关。如果会员系统出故障,会导致用户无法下单,影响范围是全公司所有业务线。所以,会员系统必须保证高性能、高可用,提供稳定、高效的基础服务。 …

vue笔记

第一个Vue应用 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta http-equiv"X-UA-Compatible" content"IEedge" /><meta name"viewport" content"widthdevice-…

【零基础入门前端系列】—动画和弹性盒模型(二十四)

【零基础入门前端系列】—动画和弹性盒模型&#xff08;二十四&#xff09; 一、概念 动画是使元素从一种样式逐渐变化为另一种样式&#xff0c;你可以改变任意多的样式任意多的次数。 请用百分比来规定变化发生的时间&#xff0c;或用关键词from和to&#xff0c;等同0%和10…

购物清单(蓝桥杯C/C++省赛)

目录 1 问题描述 2 文件的读取格式 3 代码实现 1 问题描述 小明刚刚找到工作&#xff0c;老板人很好&#xff0c;只是老板夫人很爱购物。老板忙的时候经常让小明帮忙到商场代为购物。小明很厌烦&#xff0c;但又不好推辞。 这不&#xff0c;XX大促销又来了&#xff01;老板…

项目实战典型案例26——nacos的命名空间名称和id不一致带来的思考

nacos的命名空间名称和id不一致带来的思考一&#xff1a;背景介绍Nacos命名空间相关知识点思考总结一&#xff1a;背景介绍 项目用的naocs做的配置中心和服务发现。由于开发环境和本地环境使用的都是同一个命名空间&#xff0c;我们多个服务相互调用的时候&#xff0c;由于开发…

若依分离版下拉框动态加载

最近在学习使用若依分离版框架&#xff0c;想要实现下拉框动态加载另一张表的数据&#xff0c;于是参考【字典数据-字典名称】的实现方式&#xff0c;成功试下下拉框动态加载&#xff0c;做下记录 涉及表格&#xff1a;his_user&#xff08;用户表&#xff09;-- 用户管理&…

【linux】:进程概念

文章目录 冯诺依曼体系结构一&#xff1a;操作系统二: 进程总结冯诺依曼体系结构 我们常见的计算机&#xff0c;如笔记本。我们不常见的计算机&#xff0c;如服务器&#xff0c;大部分都遵守冯诺依曼体系。 冯诺依曼体系如下图&#xff1a; 那么输入设备有哪些呢&#xff1f…

常见的Web安全漏洞:SYN攻击/CSRF/XSS

一、SYN攻击&#xff08;属于DOS攻击&#xff09; 什么情况下被动方出现SYN_RCVD状态?(flood攻击服务) 客户伪造 ip 端口&#xff0c; 向服务端发送SYN请求。完成2次握手&#xff0c;第三次服务端 等待客户端ACK确认&#xff0c;但由于客户不存在服务端一直未收到确认&#…

内含18禁~~关于自学\跳槽\转行做网络安全行业的一些建议

作者&#xff1a;Eason_LYC 悲观者预言失败&#xff0c;十言九中。 乐观者创造奇迹&#xff0c;一次即可。 一个人的价值&#xff0c;在于他所拥有的。所以可以不学无术&#xff0c;但不能一无所有&#xff01; 技术领域&#xff1a;WEB安全、网络攻防 关注WEB安全、网络攻防。…

金三银四,我猜你需要这套网络安全工程师面试题合集

2023年已经开始了&#xff0c;先来灵魂三连问&#xff0c;年初定的目标是多少&#xff1f;薪资能涨吗&#xff1f;女朋友能找到吗&#xff1f; 好了&#xff0c;不扎大家的心了&#xff0c;接下来进入正文。 由于我之前写了不少网络安全技术相关的文章和回答&#xff0c;不少…

过来人告诉你:Java学到什么程度可以找工作?

大部分初次学习Java的同学都非常关注自己学到什么程度可以找工作就业&#xff0c;因为学习的目的一方面在于掌握知识、提高技能&#xff0c;另一方面就是就业谋生。今天笔者就来跟大家聊一聊一下Java学习到什么地步可以面试找工作。任何企业&#xff0c;不论大小&#xff0c;对…

exe反编译为.py文件

介绍公司以前的一个exe包&#xff0c;我们需要查看里面python源码&#xff0c;但是以前的py源码文件找不到&#xff0c;所以只能反编译&#xff0c;介绍一下反编译的过程。首先准备&#xff1a;pyinstxtractor.py这个文件&#xff0c;网上很多&#xff0c;自己下载准备查看二进…

十八、动画与canvas

1.RequestAnimationFrame 早期定时动画 setTimeout和setInterval不能保证时间精度&#xff0c;第二个参数只能保证何时将代码添加到浏览器的任务队列 requestAnimationFrame(cb)的cb在浏览器重绘屏幕前调用 function updateProgress(){const div document.getElementById(d…

昨天某读者拿到华为OD岗位offer,今天来分享一下经验,包含华为OD机试

来自读者投稿&#xff0c;已经拿到华为 OD 开发岗位 offer&#xff0c;询问了一些问题&#xff0c;下面是他的一些经验。 文章目录华为 OD 投递简历华为 OD 机试分数OD 机试通过之后&#xff0c;收到综合测评OD 技术面&#xff08;时长 1 小时左右&#xff09;主管/HR 面试&…

从参数数量视角理解深度学习神经网络算法 DNN, CNN, RNN, LSTM 以python为工具

从参数数量视角理解深度学习神经网络算法 DNN, CNN, RNN, LSTM 以python为工具 文章目录1. 神经网络数据预处理1.1 常规预测情景1.2 文本预测场景2.全连接神经网络 DNN3.卷积神经网络CNN4.循环神经网络 RNN5.长短期记忆神经网络 LSTMʚʕ̯•͡˔•̯᷅ʔɞʚʕ̯•͡˔•̯᷅ʔ…

PMP-项目管理知识体系概述

文章目录前言PMP-项目管理知识体系概述1. 项目管理知识体系三个维度1.1. 时间维度1.2. 管理维度1.3. 10大知识领域2. 十大知识领域之间的关系3. 项目管理的全链路3.1. 需求 -> 目标3.2. 目标 -> 计划3.3. 计划 -> 执行3.4. 执行 -> 收尾4. 项目管理类型分类说明4.1…

【Web APls简介】

Web APls简介1 本节目标2 Web APIs 和 JS 基础关联性2.1 JS组成2.2 JS 基础阶段以及 Web APIs 阶段3 API 和 Web API3.1 API3.2 Web API3.3 API 和 Web API 总结1 本节目标 说出 Web APIs 阶段与 JavaScript 语法阶段的关联性说出什么是 API说出什么是 Web API 2 Web APIs 和…

30岁了,说几句大实话

是的&#xff0c;我 30 岁了&#xff0c;还是周岁。 就在这上个月末&#xff0c;我度过了自己 30 岁的生日。 都说三十而立&#xff0c;要对自己有一个正确的认识&#xff0c;明确自己以后想做什么&#xff0c;能做什么。 想想时间&#xff0c;过得真快。 过五关斩六将&…

2021电赛国一智能送药小车(F题)设计报告

2021电赛国一智能送药小车&#xff08;F题&#xff09;设计报告 【写在前面的话】 电赛是一个很奇妙的过程&#xff0c;可能有些人觉得电赛的门槛太高&#xff0c;那便意味着&#xff0c;当你决定要参加电赛的那一刻起&#xff0c;这一段路、这些日子就注定不会太轻松&#xf…