(WWW2023)论文阅读-Detecting Social Media Manipulation in Low-ResourceLanguages

论文链接:https://arxiv.org/pdf/2011.05367.pdf

摘要

        社交媒体被故意用于恶意目的,包括政治操纵和虚假信息。大多数研究都集中在高资源语言上。然而,恶意行为者会跨国家/地区和语言共享内容,包括资源匮乏的语言。

        在这里,我们调查是否以及在何种程度上可以在低资源语言设置中检测到恶意行为者。我们发现,2016 年美国总统大选后,Twitter 打击干扰行动的一部分是,大量用他加禄语发布的账户被暂停。

        通过结合文本嵌入和迁移学习,我们的框架可以准确地检测到用他加禄语发布的恶意用户,而无需事先了解该语言的恶意内容或对其进行训练

        我们首先独立学习每种语言的嵌入模型,即高资源语言(英语)和低资源语言(他加禄语)。

        然后,我们学习两个潜在空间之间的映射来传输检测模型

        我们证明,所提出的方法显着优于包括 BERT 在内的最先进模型,并且在训练数据非常有限的环境中产生显着优势——这是处理在线平台中检测恶意活动时的常态。

引言

        虚假信息和政治操纵由来已久:例如,早在社交媒体时代到来之前的 1984 年,一个声称艾滋病毒是美国政府作为生物武器制造的故事在全世界疯传。如今,社交媒体以前所未有的速度放大和加速信息传播。 Twitter 和 Facebook 等在线社交网络 (OSN) 一直面临恶意内容的大量增长,这破坏了在线话语的真实性和真实性 [1, 21, 24, 32, 74, 77]。

        各种研究表明,OSN 已被用于恶意目的,损害了我们社会的多个组成部分 [42, 75],从地缘政治事件 [22, 27, 44, 58, 63] 到公共卫生 [14, 25, 28、52、78]。机器人和巨魔是社交媒体操纵和虚假信息活动的主要参与者 [3, 11, 26, 45, 62],通常以协调一致的方式 [29, 51, 53, 64, 67, 76]。

        人们特别关注政治背景下大规模舆论操纵的风险,最好的例子就是2016年美国总统讨论选举中的网络干扰[4, 6]。从那时起,OSN 一直在努力打击滥用行为,并在其平台上保持信任和健康的对话。尽管付出了努力,巨魔和机器人的活动似乎仍然存在[36,43,72]。例如,Twitter 识别并暂停了来自不同国家(包括俄罗斯、伊朗、孟加拉国和委内瑞拉)的恶意帐户[71],这表明存在协调一致的努力来操纵跨国家和跨语言的在线言论。最近,皮埃里等人[58] 在乌克兰和俄罗斯之间持续冲突的背景下记录了平台滥用和随后的 Twitter 干预的证据 [57]。虽然其他人已经探索了高资源语言中恶意用户的各种策略[41,43,69,70]以实现他们的检测[12,13,33,49],但在这里我们提出了一种使用迁移学习来检测恶意用户的新方法能够自动识别低资源语言中的行为不当帐户。

这项工作的贡献

        我们的目的是调查文本内容是否可以以及在多大程度上可以用作代理来检测社交媒体上的恶意活动,特别关注以低资源语言共享消息的帐户。总的来说,我们的目标是回答两个主要研究问题:

        RQ1:我们可以仅根据帐户共享的内容将其归类为恶意帐户吗?我们探索从推文中学习单词表示以识别暂停帐户的有效性。

        RQ2:我们可以从高资源语言(英语)学习模型并将知识转移到低资源语言(他加禄语)来检测暂停帐户吗?我们研究学习两个独立训练的词嵌入之间的映射是否有利于识别行为不当的帐户。

数据:美国2016年总统选举

        在本研究中,我们使用 Twitter 作为测试平台来检测关注 2016 年美国总统大选的恶意账户的活动。该数据集由近 600 万不同用户发布了约 4200 万条推文,由 [6] 首次发布。通过 Twitter Streaming API 使用 23 个选举关键词收集推文(唐纳德·特朗普 5 个、希拉里·克林顿 4 个、第三方候选人 3 个,大选任期11)。该收集是在 2016 年 9 月 16 日至 2016 年 10 月 21 日期间进行的。从收集的推文集中,删除了重复的推文,这些重复的推文可能是通过对 Twitter API 的意外冗余查询捕获的。表 1 列出了最流行的关键词和相关推文数量。虽然所有关键词都是英文,但也收集了其他语言的推文。

        我们确定了 60 多种不同的语言,其中用欧洲语言编写的推文数量最多。其中,近 500 万用户发布了超过 3760 万条英文推文。我们发现大量他加禄语的推文,他加禄语是一种南岛语,是菲律宾四分之一人口的第一语言,也是菲律宾一半以上人口的第二语言。按使用人数计算,他加禄语是美国第四大常用语言 [73],仅次于英语、西班牙语和中文,按推文数量计算,他加禄语是我们数据中排名第一的低资源语言。美国也是菲律宾境外菲律宾移民人口最多的国家之一。此外,对其维基百科规模的分析进一步证实了他加禄语的资源匮乏状况——维基百科是估计一种语言的数字资源量的常用指标。他加禄语的维基百科目前按文章数量排名第 101 位,与其在我们数据集中的流行程度形成鲜明对比。因此,我们将注意力集中在他加禄语作为这项工作的目标语言。

4 方法论

4.1 词表示

        为了学习词嵌入和训练分类模型,我们使用 FastText 框架。 FastText 没有将单词视为文本的原子单元,而是将单词表示为一袋字符 n-gram [8],其中每个 n-gram 都有自己的向量表示,并且单词表示为其组成字符 n-gram 的总和。这使得模型能够适应形态丰富、词汇量大的语言,并能更好地从较小的训练语料库中进行泛化。

        尽管基于神经网络的模型在文本分类任务中取得了相当大的成功,但它们的训练和部署成本仍然相当昂贵。 FastText 利用分层 softmax 来服务作为 softmax 分类器的快速近似,用于计算给定类别的概率分布 [38]。使用特征修剪、量化、散列和再训练来显着减小模型大小而不牺牲准确性或速度,这种方法允许在大型文本语料库上训练模型比基于神经网络的方法快得多[37]。

4.2 迁移学习

        用于自然语言处理的传统机器学习方法侧重于为特定任务训练专用模型。然而,这需要大量数据,而对于资源匮乏的语言来说,这是很难获取的。历史上,这引发了对高资源语言(主要是欧洲语言)的更多研究,从而为这些语言创建了更多资源,从而促进了这一循环。迁移学习最近兴起,作为一种利用从源语言(或源任务)学到的知识并利用它来提高目标语言(或目标任务)性能的方法。

        为了解决本工作中分析的目标语言数据稀缺的问题,我们使用 MUSE,这是一个框架,用于在同一空间中对齐来自不同语言的单语词嵌入,并允许它们之间的知识转移。 MUSE 使用 Procrustes 对齐来学习从源空间到目标空间的映射,以最小化两种语言中相似单词之间的距离 [40]。它接受两组预训练的单语言单词嵌入(例如 FastText 学习的单词嵌入)作为输入,每种语言一组,并且可以以监督或无监督的方式学习它们之间的映射。监督方法需要使用双语词典,通过识别在共享空间中应该靠近的相似单词对来帮助将两个嵌入对齐在一起。在没有这样的字典的情况下,无监督替代方案利用逆向训练来初始化源空间和目标空间之间的线性映射并生成合成并行字典。 [15]表明,这种方法可以用于执行无监督单词翻译,而无需使用任何并行数据,其结果在某些情况下甚至优于先前的监督方法。

4.3 学习任务

        单语文本分类。在第一种方法中,我们使用每种语言各自的数据集从头开始训练独立的文本分类模型。出于分类目的,我们使用 FastText 框架,它将文本表示为词袋(BoW),并将它们的单独表示平均化为组合文本表示。然后,将该文本表示形式用作具有 softmax 函数的线性分类器的输入,该函数计算标签类的概率分布以进行预测。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/76522.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

光致发光荧光量子产率测试系统

荧光量子产率,是单位时间(s)内,发射荧光的光子数与吸收激发光的光子数之间的比值,符号φf。它表示物质将吸收的光能转变成荧光的能力,是荧光物质一个最基本而重要的参数。φf值的大小与物质的化学结构紧密相…

flex布局 vs grid布局

问题&#xff1a;一行最多显示3个item&#xff0c;实现最后一行居左 <div class"chart-wrap"><div class"chart-item">图</div><div class"chart-item">图</div><div class"chart-item">图</…

手机商城网站的分析与设计(论文+源码)_kaic

目录 摘 要 1 1 绪论 2 1.1选题背景意义 2 1.2国内外研究现状 2 1.2.1国内研究现状 2 1.2.2国外研究现状 3 1.3研究内容 3 2 网上手机商城网站相关技术 4 2.1.NET框架 4 2.2Access数据库 4 2.3 JavaScript技术 4 3网上手机商城网站分析与设…

C++之std::list<string>::iterator迭代器应用实例(一百七十九)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 人生格言&#xff1a; 人生…

Azure创建第一个虚拟机

首先&#xff0c;登录到 Azure 门户 (https://portal.azure.com/)。在 Azure 门户右上角&#xff0c;点击“虚拟机”按钮&#xff0c;并点击创建&#xff0c;创建Azure虚拟机。 在虚拟机创建页面中&#xff0c;选择所需的基本配置&#xff0c;包括虚拟机名称、操作系统类型和版…

git切换分支代码到某一次commit提交

git切换分支代码到某一次commit提交 当前分支切换到某一次提交&#xff1a; git chekcout <commit_id> 切换到某一次commit提交&#xff0c;并以那次commit提交新建一个分支&#xff1a; git branch <new-branch-name> <commit_id> 放弃所有代码文件修改&…

QT的界面切换

QT的界面切换 步骤一: 创建一个新的 ui 界面

基于Java+SpringMVC+Mybaties+layui+Vue+elememt基于协同过滤的电影推荐系统的设计与实现

一.项目介绍 基于协调过滤的电影推荐系统的设计与实现 本系统分为普通用户以及管理员两类 普通用户&#xff1a; 登录系统查看最新推荐电影、收藏、评论、查看电影信息、 对电影进行评分、浏览电影资讯信息、查看个人信息以及浏览收藏…

《游戏编程模式》学习笔记(四) 观察者模式 Observer Pattern

定义 观察者模式定义了对象间的一种一对多的依赖关系&#xff0c;当一个对象的状态发生改变时&#xff0c;所有依赖于它的对象都得到通知并被自动更新。 这是定义&#xff0c;看不懂就看不懂吧&#xff0c;我接下来举个例子慢慢说 为什么我们需要观察者模式 我们看一个很简…

Spyglass 脚本

Spyglass小白可以使用Gui界面进行debug Spyglass检查(一)作为IC设计人员&#xff0c;熟练掌握数字前端语法检查工具Spyglass的重要性不言而喻&#xff0c;本文讲解景芯SoChttps://mp.weixin.qq.com/s/fp07o-AvaQvLT79Di0Tb7A 熟悉电路和软件之后可以使用脚本完成整个流程 sp…

IDEA全局设置MyBatis中写SQL语句提示

第一步&#xff1a;把这两个设置改成MySQL即可&#xff1a; 第二步&#xff1a;找到设置>编辑器>语言注入>店家加号&#xff0c;选择MySQL

Flink CDC系列之:TiDB CDC 导入 Elasticsearch

Flink CDC系列之&#xff1a;TiDB CDC 导入 Elasticsearch 一、通过docker 来启动 TiDB 集群二、下载 Flink 和所需要的依赖包三、在TiDB数据库中创建表和准备数据四、启动Flink 集群&#xff0c;再启动 SQL CLI五、在 Flink SQL CLI 中使用 Flink DDL 创建表六、Kibana查看Ela…

Matplotlib绘图知识小结--Python数据分析学习

一、Pyplot子库绘制2D图表 1、Matplotlib Pyplot Pyplot 是 Matplotlib 的子库&#xff0c;提供了和 MATLAB 类似的绘图 API。 Pyplot 是常用的绘图模块&#xff0c;能很方便让用户绘制 2D 图表。 Pyplot 包含一系列绘图函数的相关函数&#xff0c;每个函数会对当前的图像进行…

经典人体模型SMPL介绍(一)

SMPL是马普所提出的经典人体模型&#xff0c;目前已成为姿态估计、人体重建等领域必不可少的基础先验。SMPL基于蒙皮和BlendShape实现&#xff0c;从数千个三维人体扫描结果得来&#xff0c;后通过PCA统计学习得来。 论文&#xff1a;SMPL: A Skinned Multi-Person Linear Mode…

OpenStack监控工具

OpenStack是一个开源的云计算管理平台项目&#xff0c;是一系列软件开源项目的组合。由NASA和Rackspace合作研发并发起&#xff0c;以Apache许可证&#xff08;Apache软件基金会发布的一个自由软件许可证&#xff09;授权。 OpenStack为私有云和公有云提供可扩展的弹性的云计算…

二.net core 自动化发布到docker (Jenkins安装之后向导)

目录 ​​​​​​​​​​​​​​ 参考资料&#xff1a;https://www.jenkins.io/doc/book/installing/docker/#setup-wizard Post-installation setup wizard.(安装后安装向导) 基于上一篇文章安装&#xff0c;在安装并运行Jenkins&#xff08;不包括使用Jenkins Opera…

学习pytorch 3 tensorboard的使用

tensorboard的使用 1. 安装2. add_scalar 查看函数图形3. 查看结果4. add_image() 查看训练步骤中间结果的图片 1. 安装 pytorch conda环境 pip install tensorboard pip install opencv-python2. add_scalar 查看函数图形 常用来查看 train val loss等函数图形 from torch…

TCP 协议十大相关特性总结

目录 一、TCP特性 二、报文格式 TCP十大核心特性 1. 确认应答 2. 超时重传 3. 连接管理(三次握手,四次挥手) 三次握手 四次挥手 4. 滑动窗口 情况一:接收方的ACK丢失 情况二:发送方的数据包丢失 5. 流量控制 6. 拥塞控制 7. 延迟应答 8. 捎带应答 9. 字节流粘包问题 10. TCP的…

WebStorm修改默认打开的浏览器

有两种方式第一种修改系统默认浏览器 我采用的是下面这种&#xff0c;在webstorm中修改 将浏览器设置为默认的浏览器即可

【学会动态规划】乘积为正数的最长子数组长度(21)

目录 动态规划怎么学&#xff1f; 1. 题目解析 2. 算法原理 1. 状态表示 2. 状态转移方程 3. 初始化 4. 填表顺序 5. 返回值 3. 代码编写 写在最后&#xff1a; 动态规划怎么学&#xff1f; 学习一个算法没有捷径&#xff0c;更何况是学习动态规划&#xff0c; 跟我…