面向社交网络语言隐写分析

论文:Linguistic Steganalysis Toward Social Network

发表在:IEEE Transactions on Information Forensics & Security是网络与信息安全领域的国际两大顶级期刊之一,中国计算机学会(CCF)推荐的A类期刊,SCI一区TOP期刊,影响因子为6.013,在信息安全、信息科学和计算机网络等领域具有很高的影响力。

摘要

随着互联网和社交媒体的迅猛发展,语言隐写术在社交网络中容易被滥用,对个人隐私、网络病毒和国防等各个方面造成重大损害。目前,已经提出了大量的语言隐写分析方法来检测有害的隐写载体。然而,几乎所有现有的方法在真实的社交网络中都失败了因为它们只致力于语言特征,这些特征由于真实社交网络的极度稀疏和极度分散的挑战而极度不足。在本文中,我们试图填补一个长期存在的空白,即在社交网络场景中缺乏用于检测隐写文本的数据集和有效方法。具体而言,我们构建了一个名为Stego-Sandbox的数据集,以模拟真实的社交网络场景,其中包含文本及其关系。我们提出了一种有效的语言隐写分析框架,该框架整合了文本中包含的语言特征和由这些连接表示的上下文特征。广泛的实验结果表明,由于捕获到的上下文特征,我们提出的框架可以有效弥补这些现有方法的缺陷,并在真实社交网络场景中极大地提高它们的检测能力。
关键词—语言隐写分析,社交网络,数据集,隐写分析框架。

I. 引言

生活在互联网时代的人们要求有保护的个人通信。加密和隐蔽系统是满足这一需求的主要技术。与加密系统不同,加密系统中传输信息的存在可以被暴露,而隐蔽系统旨在在确保消息对恶意监视者不可感知的同时传递消息 [1]。由于这一优势,隐蔽系统可以在避免拦截和破解等攻击的同时有效传输重要信息。隐写术是隐蔽系统的最重要技术。该技术将传输的消息嵌入到一些普通的信息载体中,同时通过使嵌入消息的载体(通常称为“隐写”或“隐写载体”)与没有嵌入消息的普通载体(通常称为“封面”或“非隐写载体”)之间的差异尽可能小来追求不可察觉性。由于其高度的隐蔽性,隐写术在过去的几十年里引起了许多研究者的兴趣,并在许多实际场景中发挥了重要作用,如隐私保护 [2],[3]。此外,在互联网时代,社交网络和媒体已经成为人们几乎无法分离的一部分。根据Statista的数据,截至2022年4月,社交网络中有46.5亿用户积极发布、评论和发送私人消息。因此,社交网络的便利性和社交媒体的信息冗余产生了许多基于社交媒体的强大的隐写方法 [2],[4],[5],[6],[7],[8],[9],[10],[11],[12]。

然而,社交网络和社交媒体的特性也使人们面临滥用隐写术的风险。一旦在社交网络中非法滥用,隐写术可以对个人隐私、网络安全甚至社会安全造成可怕的破坏。因此,迫切需要设计技术(称为“隐写分析”)来自动检测社交网络中这些隐写媒体载体。社交媒体载体有许多种类,如图像 [4]、音频 [5] 和文本 [2],[6],[7],[8],[9],[10],[11],[12]。在这些载体中,文本是社交平台中最广泛使用的隐写媒体,这是因为它们具有特殊的特征。首先,文本是最常用的信息载体,在几乎所有情况下,人们使用文本进行发布、评论、回复、传播等。这些互动创建了大量的社交文本。其次,文本是强大且稳定的,这确保了它们可以在传输时不丢失机密信息。第三,与发送单个图像或音频相比,发送单个文本只需要非常低的带宽,这使通信参与者能够传输大量的机密信息。因此,在本文中,我们将全力检测文本隐写(也称为“语言隐写”)。

检测语言隐写是一项艰巨的任务。强大的语言隐写方法不断涌现 [2], [6], [7], [8], [9], [10], [11], [12]。近年来,研究人员尝试了先进的语言模型 [6], [7], [11] 和增强安全性的文本生成算法 [2], [8], [9], [12],以使隐写和封面之间的统计差异尽量小。

为了对抗这些强大的语言隐写技术的潜在恶意用途,近几十年出现了大量语言隐写分析方法。总的来说,它们总是尽最大努力找到隐写和封面之间的不同统计特征,从早期的手工设计特征 [15], [16], [17], [18] 到最近的深度学习特征 [19], [20], [21], [22], [23], [24], [25]。利用手工特征 [15], [16], [17], [18],如词频 [15] 的传统方法只能获得有限的性能,因为它们只能处理浅层次的统计信息。随着神经网络和自然语言处理技术的发展,已经尝试了各种深度学习特征用于语言隐写分析,从本地单词级相关性 [19], [22] 到全局共享单词之间的信息 [24],从单一尺寸的隐藏特征 [19], [20], [23] 到多尺度表示 [21], [22],从孤立的文本内语义特征 [22], [25] 到涉及语义和句法信息 [26]。此外,一些工作 [23] 和 [26] 采用预训练方法,为检测机器提供了更强的理解语言差异的能力。

然而,即使当前的语言隐写分析方法取得了令人瞩目的改进,它们在现实世界的社交网络场景中可能仍然无法获得足够有效的性能。由于社交文本的独特特性,语言隐写分析面临社交网络的两个显著挑战。首先,隐写信息可能极度稀疏。在许多真实的社交网络中,大量的人们创建了无数的社交文本。因此,即使社交网络中的极小比例的文本携带机密消息,传输的消息总量也足够庞大。在这种实际情况下,语言隐写分析器需要从大量封面中挑选极少数的隐写,这严重挑战了现有方法 [19], [20], [21], [22], [23], [24], [25]。其次,社交网络中的文本极度分散。在许多真实的社交网络中,人们通常创建短文本,只有在获得上下文时才能完全理解。因此,这些现有方法 [19], [20], [21], [22], [23], [24], [25],它们严重依赖于个体文本的语言特征,如图1所示,很难从这些分散的社交文本中获取足够的统计信息以做出正确的决策。由于这两个挑战,几乎所有这些现有的所谓最先进的方法几乎无法在真实社交网络场景中有效地检测到隐写。从第III-A节的结果可以看出,在我们模拟的社交网络中,这些方法只能获得较差的性能,甚至在稀疏比例减少到10%时无法检测到隐写。

一般来说,社交文本并不是孤立的实例,而是通过各种互动活动如评论、回复、转发等相互连接,这表明存在潜在的上下文信息可用于帮助检测隐写。遗憾的是,即使一些现有的文本隐写分析方法被应用于社交平台语料库 [23], [25], [26],据我们所知,它们仍然将这些语料库视为孤立的个体,并忽略了这些相互连接的社交文本的连接信息。我们相信我们并不是第一个发现这一遗憾的团体,但在这些先前的工作中仍存在巨大的差距,包括没有模拟具有复杂连接的社交网络的发展。

为了抵消这一领域现有工作的不足,在本文中,我们发布了一个名为Stego-Sandbox的新数据集,用于模拟社交网络情景进行语言隐写分析。该数据集包括从三个主流社交网络(Reddit、Twitter和新浪微博)收集的文本及其连接信息。在每个社交网络中,我们模拟使用不同的语言隐写算法和不同的机密信息负载在社交网络中发送不同比例的隐写文本。

我们在模拟的情景中测试了许多现有的语言隐写分析方法,并令人惊讶地发现这些方法几乎无法取得令人满意的性能。然后,我们提出了一个面向真实社交网络的新型语言隐写分析框架。这个提议的框架可以基于文本本身包含的语言特征和社交文本之间连接中隐藏的上下文特征做出决策。语言特征提取器可以作为许多现有方法的基础,而为了捕捉上下文特征,我们采用图形来建模文本及其连接的拓扑结构。广泛的实验证明,由于捕捉到的上下文特征,我们提出的框架可以有效弥补这些现有方法的不足。

本文的其余部分组织如下:
- 第二部分对语言隐写分析和社交网络情景中的语言隐写分析的相关工作进行了解释;
- 第三部分展示了我们如何构建新的社交网络隐写分析数据集,同时也展示了这些现有方法在社交网络情景中是否能够表现良好;
- 第四部分描述了我们如何处理文本及其连接信息;
- 第五部分提供了实验设置和对结果的分析;
- 第六部分总结了本文。

2. 相关工作

A. 语言隐写分析
随着语言隐写学的不断发展,隐写和非隐写文本之间的差异越来越小,这给语言隐写分析方法带来了挑战。为了检测隐写文本,近年来涌现出许多先进的语言隐写分析方法。研究人员尝试了丰富的方法来找到隐写和封面之间的统计差异,从早期的手动特征方法 [15],[16],[17] 到最近的深度学习特征方法 [19],[20],[21],[22],[23],[24]。早期的手动特征方法仅根据手动设计的语言特征 [15],[16],[17],如词频 [15] 和同义词频率 [17],做出决策。这些手动设计的特征可以表示一些浅层次的统计特征,但不能触及文本的复杂特征,而且这些浅层次的统计差异很容易被当前强大的隐写方法降低。此外,设计这些特征需要深奥的专业知识和不可负担的成本,使得这些方法 [15],[16],[17] 难以实现精确的检测性能。

随着深度神经网络(DNNs)和自然语言处理技术的发展,已经成功利用了大量的深度学习语言特征来检测文本隐写,从局部词级相关性 [19],[22] 到全局共享词际信息 [24],从单一大小的隐藏特征 [19],[20],[23] 到多尺度表示 [21],[22],从孤立的文本语义特征 [23] 到涉及的语义和句法信息 [26]。其中,在2019年,Yang等人 [19] 首次提出了一种快速高效的DNN模型,利用词嵌入技术获取词级表示,然后利用DNN获取单词之间的相关性。同样在2019年,一些研究人员 [20] 发现嵌入机密信息将损害条件概率分布,因此他们提出利用循环神经网络(RNNs)语言模型捕捉条件概率分布特征的差异。在2020年,受到词关联性随着词之间距离变化而改变的启发,卷积神经网络(CNNs)被用于利用滑动多尺寸窗口捕捉多尺度的统计关联特征 [22]。与CNN方法不同,Niu等人 [21] 提出使用RNN模块基于精细的词表示捕捉多尺度的关联特征。在2021年,Wu等人 [24] 提出使用图神经网络(GNNs)捕捉单词的全局统计特征。基于多尺度的统计关联特征,Peng等人 [25] 提出捕捉条件概率分布差异的额外特征,类似于Yang等人 [6]所做的。总体而言,这些提出的方法旨在学习文本语义表面上的统计语言特征。最近,一些研究人员发现,当隐藏消息时,隐写的句法特征可能偏离封面的句法特征,基于此提出了一个框架,以处理语义和句法表面上的语言特征 [26]。

此外,一些工作采用预训练方法,例如BERT [27],以增强对隐写和封面之间语言差异的理解能力。Yang等人 [26],Zou等人 [23] 和Peng等人 [25] 分别采用预训练语言模型,以提高对隐写和封面之间语言理解能力,获得了对词在隐写文本中的精细表示。Peng等人 [25] 使用预训练的语言特征提取器在训练新的隐写分析模型的初始阶段增强了歧视能力。这些方法可以帮助模型更快地找到优化。

尽管当前语言隐写分析方法取得了显著的进展,几乎所有这些方法都将其范围限定在文本中包含的语言统计特征中,并忽略了隐藏在社交文本之间连接信息中的文本上下文特征。尽管社交文本之间的连接在检测隐写文本方面可能起着至关重要的作用,但利用连接的研究仍然是空白的。

B. 面向社交网络的隐写分析
随着互联网和社交网络的发展,社交媒体的巨大潜力和可能的滥用风险引起了广泛研究人员的关注 [13]。社交媒体之间的连接,例如文本和图像,已被用来增强许多任务的性能。例如,Xu等人 [28]通过媒体连接的帮助实现了增强的图像情感分析。

尽管社交媒体及其连接的潜力已经受到关注,但只有极少数文献提出了为社交网络情景设计的有效隐写分析方法。除文本外,其他基于媒体的隐写分析方法受到媒体的极端碎片化和隐写媒体的极端稀疏性的挑战。为了解决隐写媒体的稀疏性,研究人员尝试构建多个伪样本 [29],[30]。为了解决媒体的碎片化,已经研究了媒体的连接信息 [31],[32]。例如,李等人 [31] 利用由同一用户发布的图像之间的内部连接来帮助检测谁在社交网络中传递隐写图像。然而,大多数这些方法仍然忽略了连接信息,并试图从媒体本身找到更多的特征。尽管一些工作 [31] 和 [32] 注意到媒体连接的有益性,但所使用的方法相当简单,只能触及浅层的连接信息。媒体之间的复杂连接仍然待开发。此外,尽管社交文本之间的复杂连接结构在面向真实场景的语言隐写分析中可能发挥重要作用,但相关文献仍然是空白的。

克服上述挑战不仅需要精湛的检测方法,还需要模拟在真实社交网络环境中传输隐写文本的数据集,例如Reddit、Twitter、新浪微博等。目前,有几个广泛使用的语言隐写分析数据集,这些数据集要么不是自然语言,例如T-Steg [22],它包含具有固定格式的文本,要么将社交网络中的文本视为孤立的个体 [33]。据我所知,没有现有的语言隐写分析数据集满足模拟需求。

III. STEGO-SANDBOX构建


A. 数据集构建


缺乏模拟真实社交网络的数据集阻碍了实际社交语言隐写分析的发展。为了填补这一空白并开发实用的社交语言隐写分析器,在本文中,我们构建了一个新的数据集,模拟真实社交网络环境,称之为Stego-Sandbox。Stego-Sandbox可以模拟不同的真实社交平台,并能模拟使用不同的语言隐写算法、不同的嵌入负载和不同的隐写文本稀疏比的不同情境。
数据集构建过程包括三个步骤:
1) 获取数据和预处理。
2) 生成隐写文本。
3) 模拟发送隐写文本。
在第1步中,我们调查了三个非常著名和流行的社交平台,分别是Reddit、Twitter和新浪微博。它们都具有显著的特点,包括实时性和丰富的人际互动。为了获取原始文本及其连接提示,我们通过Twitter应用程序接口收集Twitter数据,从第三方网站采用Reddit数据,5 并采用Wang等人[34]收集的微博数据。然后,对于获取的数据,我们采用常规处理方法去噪,例如删除http链接,删除主题标签,并用相应的文本描述替换表情符号。之后,我们需要找出文本之间的连接。在这项工作中,我们考虑最常见的连接方式,即评论和回复。对于任何被其他文本评论或回复的文本,我们记录它们是连接的。
在第2步中,我们旨在生成与社交网络情景一致的隐写文本。为此,我们在预处理的语料库上训练隐写模型,然后基于训练过的模型和最先进的生成型语言隐写算法生成隐写文本。在本文中,我们采用了由Yang等人[6]提出的模型,该模型广泛用于在语言隐写分析社区生成隐写文本[22],[23],[24],[26]。该模型捕捉文本的序列表示,并自回归生成隐写文本,该模型与许多语言隐写算法兼容,例如定长编码[6]和Patient Huffman[12]。在这项工作中,我们使用三种语言隐写算法生成文本隐写,包括可变长度编码(VLC)[6],算术编码(AC)[8]和自适应动态分组(ADG)[9],所有这些算法旨在最小化隐写和非隐写文本之间的条件概率差异。具体而言,VLC [6] 和 AC [8] 使用Huffman编码和算术编码将秘密位映射到条件概率以将隐写和封面之间的差异减小到微小值,ADG [9] 将条件概率分组到尽可能相等的几个桶中,数学上证明可以达到理论最小差异。此外,对于VLC [6] 和 AC [8],我们使用不同的嵌入负载生成文本(见表.I)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/350479.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Git 删除已经 Push 到远程多余的文件

例如要删除 data/log 文件 1. 在当前项目下打开终端 2. 查看有哪些文件夹 dir 3. 预览将要删除的文件(如果不清楚该目录下是否存在不应该删除的文件) git rm -r -n --cached 文件/文件夹名称 加上 -n 这个参数,执行命令时,是不会…

ubuntu设置右键打开terminator、code

前言: 这里介绍一种直接右键打开本地目录下的terminator和vscode的方法。 一:右键打开terminator 1.安装terminator sudo apt install terminator 2.安装nautilus-actions filemanager-actions sudo apt-get install nautilus-actions filemanager…

Open CASCADE学习|圆柱螺旋线绘制原理探究

1、圆柱螺旋线绘制原理 在OCC中,圆柱面的参数方程为: 设P为(x0,y0,z0),则 xx0r*cos(u) yy0r*sin(u) zz0v 但u、v之间有关系时,此方程表达为圆柱螺旋线,u、v之间为线性关系时是等螺距螺旋线&#xff0…

数位dp,HDU 4151 The Special Number

一、题目 1、题目描述 In this problem, we assume the positive integer with the following properties are called ‘the special number’: 1) The special number is a non-negative integer without any leading zero. 2) The numbers in every digit of the special nu…

Linux基础指令大汇总

Linux的指令比较多,在学习的过程中要学会总结和归纳,同时结合实践多多使用,就像学数学一样,不是背过公式就等于掌握的,而是要知道在什么时候用,怎么用才是关键。 这篇文章会列举一系列常用的指令&#xff0…

springblade框架实现多数据源

文章目录 前言1、 application-dev.yml配置文件2、service层3、修改 spring.datasource.dynamic.enabled 备注总结 前言 公司要求使用springblade框架开发,需要用到多数据源的场景 1、 application-dev.yml配置文件 #数据源配置 spring:datasource:dynamic:primar…

腾讯云服务器一键部署幻兽帕鲁联机服务器详细教程(Linux系统)

腾讯云作为国内领先的云计算服务商,为广大用户提供了稳定、高效的云计算服务。本文将详细介绍如何在腾讯云服务器(Linux系统)实现一键部署幻兽帕鲁联机服务器,帮助大家快速搭建自己的游戏联机服务器。 第一步:购买服务…

初识数据库

数据库技术的基础术语 在学习数据库技术之前,我们先认识与该技术密切相关的基本术语,分别是数据库 (Database, DB)、数据库管理系统(Database Management System, DBMS)和数据库 系统(Database System, DBS),具体介绍如下。 1. 数据库 数…

【Linux install】详细的Ubuntu和win双系统安装指南

文章目录 1.前期准备1.1 制作启动盘1.2关闭快速启动、安全启动、bitlocker1.2.1 原因1.2.2 进入BIOSshell命令行进入BIOSwindows设置中高级启动在开机时狂按某个键进入BIOS 1.2.3 关闭Fast boot和Secure boot 1.3 划分磁盘空间1.3.1 查看目前的虚拟内存大小 2.开始安装2.1 使用…

代码随想录 Leetcode102. 二叉树的层序遍历

题目&#xff1a; 代码(首刷看解析 2024年1月24日&#xff09;&#xff1a; class Solution { public:vector<vector<int>> levelOrder(TreeNode* root) {vector<vector<int>> res;if(root nullptr) return res;queue<TreeNode*> que;TreeNode…

智能充电桩,机器人 wifi蓝牙 解决方案

新联鑫威低功耗高性价比sdio wifi/蓝牙combo的模块单频2.4g的CYWL6208&#xff0c;双频2.4g/5g CYWL6312可以应用到一些低延时 高性能 低功耗 联网需求的交流直流充电桩&#xff0c;扭力扳手&#xff0c;agv机器人&#xff0c;目前支持主流的stm32F4/GD32F4 瑞萨 psoc的主控&am…

博弈论(牛客练习赛)

思路&#xff1a;我们考虑小念赢 1、如果n>1并且p0&#xff0c;小念可以连续取两次&#xff0c;相当于小念有挂&#xff0c;可以从必败态转为必胜态&#xff0c;必赢。 2、如果n>1并且m>n-1&#xff0c;小念第一次取n-1个&#xff0c;小念必赢。 代码&#xff1a; …

(大众金融)SQL server面试题(2)-游戏打包销售折扣

今天&#xff0c;面试了一家公司&#xff0c;什么也不说先来三道面试题做做&#xff0c;第二题。 那么&#xff0c;我们就开始做题吧&#xff0c;谁叫我们是打工人呢。 题目是这样的&#xff1a; 销售平台进行游戏打包促销。将任意个游戏打包为一组&#xff0c;根据游戏数量…

RabbitMQ之死信交换机

前言 消息队列是分布式系统中常用的组件&#xff0c;用于异步通信、解耦和提高系统可靠性。然而&#xff0c;在实际应用中&#xff0c;难免会遇到一些异常情况&#xff0c;例如消息处理失败、超时等。为了更好地处理这些异常情况&#xff0c;死信交换机&#xff08;Dead Lette…

C++:组合、继承与多态

面向对象设计的重要目的之一就是代码重用&#xff0c;这也是C的重要特性之一。代码重用鼓励人们使用已有的&#xff0c;得到认可并经过测试的高质量代码。多态允许以常规方式书写代码来访问多种现有的且已专门化了的相关类。继承和多态是面向对象程序设计方法的两个最主要的特性…

使用vs2022将c语言文件打包成exe可执行程序分享给朋友(详解)

目录 1.给vs2022安装打包插件 2.新建打包项目 找到自己想要打包好的项目 3.拷贝必要的资源 3.1拷贝素材 3.2***导入输出文件***** 4.设置项目在桌面显示的图标 4.1找好图标素材&#xff0c;利用在线工具生成图标格式 4.2将图标放到桌面显示中来 5.最终生成打包 1.给vs…

鸿蒙ArkUI开发-实现增删Tab页签

场景介绍 部分应用在使用过程中需要自定义添加或删除标签的场景&#xff0c;比如在浏览器中的顶部标签栏中需要新打开或关闭网页页签&#xff0c;而这种场景与Tabs组件效果类似&#xff0c;但Tabs组件不提供增加或删除页签的功能&#xff0c;不能自由的增加删除页签&#xff0…

C语言实现希尔排序算法(附带源代码)

希尔排序 希尔排序&#xff0c;也称递减增量排序算法&#xff0c;是插入排序的一种更高效的改进版本。希尔排序是非稳定排序算法。 希尔排序是基于插入排序的以下两点性质而提出改进方法的&#xff1a; 插入排序在对几乎已经排好序的数据操作时&#xff0c;效率高&#xff0…

如何轻松实现一键转发微信好友的朋友圈文案?

随着朋友圈日渐流行&#xff0c;我们越来越希望能够快速方便地与朋友们分享我们的想法和感受。然而&#xff0c;每次都需要保存图片、复制粘贴文案&#xff0c;这无疑增加了我们的工作量和时间成本。 现在&#xff0c;我将和大家分享一款神奇的工具——微信管理系统&#xff0…

【C++中STL】map/multimap容器

map/multimap容器 map基本概念map构造和赋值map的大小和交换map插入和删除map的查找和统计 map排序 map基本概念 map中的所有元素都是pair对组&#xff0c;高效率&#xff0c;pair中的第一个元素为key&#xff08;键值&#xff09;&#xff0c;起到索引作用&#xff0c;第二个…