多模态特征融合:图像、语音、文本如何转为特征向量并进行分类

多模态特征融合

  • 前言
  • 输入层,数据集转为特征向量
    • 图像
    • 语音
      • 什么是时域信号,什么是频域信号
      • 语音信号转换 - 1.傅立叶变换
      • 语音信号转换 - 2.梅尔频率倒谱系数
    • 文本
      • 词袋模型
      • 词嵌入模型
  • 输出层,多模态模型合并

前言

学习多模态的话题可以从深度学习的分类任务出发,因为分类任务是最直观的可以观察到不同模态的数据,通过输入数据到模型中,我们可以看到模型是如何学习到数据的特征向量的,同时分类任务的模型也是实现更复杂任务模型的基础。从分类任务中可以了解到图像、文本、语音在模型的特征向量是什么。

以飞浆的多模态视频分类模型为例,这个模型基于真实的短视频业务数据,融合文本、视频图像、音频三种模态进行视频多模标签分类,相比只使用视频图像特征,显著提升了高层语义标签的效果。模型架构图如下:
在这里插入图片描述
在该模型中,不同模态的数据通过不同的处理方式进行特征提取和融合。比如,文本数据可以通过词嵌入的方式转换为特征向量,视频和音频数据可以通过卷积神经网络和循环神经网络提取特征。这些特征向量经过融合层进行特征融合,最终输入到分类层进行分类。通过这个例子,我们可以看到如何将不同模态的数据转换为特征向量,以及如何通过特征融合提高模型的分类性能。

从上述段落中可以看出,该模型架构包含了三种数据类型的输入(图像、文本、语音),并且根据不同的数据类型拆分成不同的模型进行学习。为了能够将这些数据输入到深度学习模型中进行学习,需要先将它们转换成数字类型的向量。这个过程称为特征工程,其目的是将原始数据转换成能够被深度学习模型所理解的特征向量。具体来说,对于图像数据,可以使用卷积神经网络(CNN)来提取特征;对于文本数据,可以使用词嵌入(Word Embedding)等技术将单词转换成向量表示;对于语音数据,可以使用声学特征提取技术,如Mel频率倒谱系数(MFCC)等来提取特征。经过特征工程处理后,这些数据就可以被送入相应的模型进行学习。

在模型的输出层,需要将三种模型所学习到的特征向量进行合并,以获得最终的分类结果。合并方法通常使用简单的向量拼接(Concatenation)或者加权平均(Weighted Average)等方式进行。具体的合并方法可以根据实际情况进行选择,以获得最佳的性能。

输入层,数据集转为特征向量

图像

在计算机视觉中,图像通常以矩阵形式表示。

这个矩阵由多个向量组成,可以通过卷积、激活函数和池化等操作提取出图像的特征。在这个过程中,每个向量都代表着图像中的某些信息,如边缘、纹理等。最后,在全连接层中,所有的特征向量被展平成一个向量,用来表示整个图像的特征。可以将这个向量看做是将图像从左到右、从上到下拆分成若干块,按照顺序排列得到的。通过这种方式,我们可以将复杂的图像信息转换成一个向量表示,方便后续的机器学习模型进行处理。

语音

在这里插入图片描述
对于语音信号的处理,通常需要进行预处理和特征提取,以便为后续的语音识别模型提供高质量的输入语音预处理通常包括以下步骤:

  1. 语音信号的采集:通过麦克风或其他录音设备收集语音信号。
  2. 信号增益调整:根据录制环境和麦克风特性等因素,对信号进行增益调整,以保证信号的质量。
  3. 降噪处理:对信号进行降噪处理,去除录音中的噪声、杂音等干扰信号。
  4. 分帧处理:将信号划分成若干小段,每一小段称为一帧,通常每帧的长度在10ms-30ms之间。
  5. 加窗:对每帧信号应用窗函数(例如汉明窗),以减少频谱泄漏的影响。
  6. 傅里叶变换:对每帧信号进行快速傅里叶变换(FFT),以将时域信号转换为频域信号。
  7. Mel滤波器组:将频域信号通过一组Mel滤波器,得到每个滤波器的输出能量。
  8. 对数变换:对每个滤波器的输出能量取对数,以提高计算精度并将能量值范围缩小。
  9. 倒谱变换:对每个滤波器的对数能量值进行离散余弦变换(DCT),以提取频率特征,得到MFCC系数。 8. 特征归一化:对提取出的特征进行归一化处理,以消除不同说话人、不同录制设备等因素对特征的影响。
  10. 特征拼接:将相邻帧的特征进行拼接,以提高特征的时序信息。
  11. 数据增强:通过对语音信号进行变换、扰动等操作,增加数据量和多样性,提高模型的泛化能力。

从上面步骤来看语音转换主要涉及到的技术是时域信号转频域信号,和mel滤波器转换,这里补充这二个部分的内容。

什么是时域信号,什么是频域信号

时域分析是指将信号看作是时间的函数,通过对信号在时间轴上的变化进行分析

频域分析则是将信号看作是频率的函数,通过对信号在频率轴上的分解和重建来分析信号的特征

图像

信号就是我们的数据,以图像来说信号就是不同的像素级,也可以说不同值的像素,图像在时域上看表示的是信号的空间位置关系,也就是我们人眼看到一张图片,就是图像的时域信号,

图像的频域,就类似于图像直方图一样,将不同的像素级结合像素级在图像中的数量,绘制出的图。

对应到语音同理

语音跟图像像素级一样也有区分,语音按不同的声音频率区分不同的语音数据,
在时域上抽象看,就是我们听到的一段声音,如果把它放到2维图像中,就一段语音(不同频率的语音信号叠加到一起),在时间维度上的振幅大小和变换。语音信号在时域上是一个连续的波形,由多个频率成分叠加而成

语音频域,将语音信号分解为不同频率的正弦波成分,并计算每个频率成分的幅度、相位等特征

将一个语音信号转换为频域表示通常需要进行傅立叶变换。

语音信号转换 - 1.傅立叶变换

傅立叶变换是一种将时域信号转换为频域信号的数学方法。

下面是一个简单的例子,用于说明如何将一个简单的声音信号进行傅立叶变换。假设我们有一个长度为1000个采样点的声音信号,其中每个采样点的值在-1到1之间。我们可以将这个信号看作一个在时间上连续的函数,用 f ( t ) f(t) f(t)表示。

为了将 f ( t ) f(t) f(t)转换为频域表示,我们需要计算它的傅立叶变换。傅立叶变换将 f ( t ) f(t) f(t)分解为不同频率的正弦波的和。

具体来说,它将 f ( t ) f(t) f(t)表示为以下形式: f ( t ) = ∑ k = − ∞ ∞ c k e 2 π k t / T f(t)=\sum_{k=-\infty}^\infty c_ke^{2\pi kt/T} f(t)=k=cke2πkt/T其中, c k c_k ck是一个复数系数, k k k是频率, T T T是信号的周期。这个公式意味着,原始信号可以表示为许多频率为 k k k的正弦波的加权和,其中权重由 c k c_k ck给出。我们可以使用离散傅立叶变换(Discrete Fourier Transform, DFT)将 f ( t ) f(t) f(t)转换为频域表示,得到一个包含1000个复数值的向量 F k F_k Fk,其中每个值对应于一个频率。具体来说, F k F_k Fk表示信号中频率为 k k k的正弦波的复数系数。

在实践中,我们可以使用现有的计算库来执行傅立叶变换,而无需手动计算每个系数。在Python中,可以使用NumPy库的fft函数来计算DFT。以下是一个示例代码

import numpy as np

# 生成一个简单的声音信号
t = np.linspace(0, 1, 1000)
f = 440  # 频率为440Hz
signal = np.sin(2 * np.pi * f * t)

# 计算DFT
dft = np.fft.fft(signal)

在这个例子中,我们生成了一个频率为440Hz的正弦波,并使用NumPy的fft函数计算了它的DFT。dft变量包含了信号的频域表示,其中每个值对应于一个频率

将傅立叶转换的信息用梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)转换为语谱图。

语音信号转换 - 2.梅尔频率倒谱系数

在MFCC中,通常使用LogFBank来代替Mel滤波器组的输出。LogFBank计算公式如下:

L o g F B a n k t , n = log ⁡ ∑ k = 1 K H n , k S t , k LogFBank_{t,n}=\log\sum_{k=1}^{K} H_{n,k} S_{t,k} LogFBankt,n=logk=1KHn,kSt,k

其中, t t t表示帧数, n n n表示Mel滤波器组的序号, k k k表示FFT输出的频率索引。
H n , k H_{n,k} Hn,k表示第 n n n个Mel滤波器在第 k k k个频率处的响应, S t , k S_{t,k} St,k表示第 t t t帧在第 k k k个频率处的能量。LogFBank的结果是一个向量,其中每个元素代表一个Mel滤波器的输出能量取对数后的值。通常在MFCC中,还会进一步应用离散余弦变换(DCT)对LogFBank进行压缩,得到MFCC系数。
在这里插入图片描述

可以将语谱图视为一张图像,因为它具有图像的基本特征,例如宽度、高度、像素值等。

语谱图是由频谱分析的结果得到的,它将音频信号在时间和频率维度上分解,并用颜色来表示不同频率的能量强度,因此类似于图像中的像素。在语音识别中,将语谱图转换为特征向量是一种常见的方法,称为Mel频率倒谱系数(Mel Frequency Cepstral Coefficients, MFCCs)。

MFCCs是一种将语音信号的频率特征进行提取的方法,其基本思想是将语谱图转换为一组特征向量,这些特征向量可以用来训练分类器或进行其他的机器学习任务。因此,可以将语谱图看作是一种图像,并使用MFCCs将其转换为特征向量。这种方法已被广泛应用于语音识别和相关领域中。

文本

在这里插入图片描述

将文本转化为特征向量的原理是将文本中的词语映射为向量空间中的点,然后根据这些点的位置和距离来表示文本特征。常用的方法有词袋模型和词嵌入模型,下面分别介绍它们的原理和公式。

词袋模型

词袋模型将每个文本看作是一个词语的集合,忽略其词语出现的顺序和语法结构,只考虑文本中每个词语的出现次数。词袋模型可以用一个向量来表示文本,其中向量的每个元素对应一个词语,其取值表示该词语在文本中出现的次数。词袋模型的公式可以表示为:
B O W ( w ) i = ∑ j = 1 n ∣ w j = v i ∣ BOW(w)_i=\sum_{j=1}^{n}|w_j=v_i| BOW(w)i=j=1nwj=vi

其中,BOW(w)_i表示向量w中第i个元素的值,v_i表示第i个词语,n表示文本中词语的总数,[w_j=v_i]表示如果w中第j个词语等于v_i,则该项取值为1,否则取值为0。

词嵌入模型

词嵌入模型是一种将文本中的词语映射为向量空间中的向量的方法,它能够在保留词语语义信息的同时,还考虑了词语之间的相关性。常用的词嵌入模型有Word2Vec和GloVe,它们都是基于共现矩阵的方法。

以Word2Vec为例,其原理是通过神经网络将每个词语映射为一个固定长度的向量,使得在向量空间中相似的词语距离较近。Word2Vec包含两个模型:CBOW和Skip-gram,其中CBOW通过上下文预测目标词语,Skip-gram通过目标词语预测上下文。这里以Skip-gram为例,其公式可以表示为:

s o f t m a x ( v c T , v w ) = e x p ( v c T v w ) ∑ i = 1 V e x p ( v c T v i ) softmax(v^T_c,v_w)=\frac{exp(v^T_cv_w)}{\sum_{i=1}^{V}exp(v^T_cv_i)} softmax(vcT,vw)=i=1Vexp(vcTvi)exp(vcTvw)

其中,v_c表示上下文词语的向量,v_w表示目标词语的向量,V表示词汇表中的总词语数。公式的意义是计算给定上下文情况下,目标词语为某个词语的概率,通过最大化所有目标词语的条件概率之和,训练出每个词语对应的向量。除了Word2Vec之外,还有一些其他的词嵌入模型,比如GloVe,其公式可以表示为:

F ( p i j ) = ( w i ⋅ w j + b i + b j − l o g p i j ) 2 2 σ 2 F(p_{ij})=\frac{(w_i·w_j+b_i+b_j-logp_{ij})^2}{2\sigma^2} F(pij)=2σ2(wiwj+bi+bjlogpij)2

其中,p_ij表示词语i和词语j在上下文中共现的次数占所有共现次数的比例,w_i和w_j表示词语i和词语j对应的向量,b_i和b_j表示词语i和词语j对应的偏置项,σ表示GloVe模型的超参数。下面是一个简单的Python代码实现,演示如何将文本转化为特征向量

from sklearn.feature_extraction.text import CountVectorizer
corpus = ['this is a test', 'this is another test']
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(X.toarray())

#run result
[[1 1 1 0]
 [1 1 0 1]]

可以看到,文本被转化为了一个二维矩阵,其中每行表示一个文本,每列表示一个词语,矩阵中的每个元素表示对应的词语在文本中出现的次数。这个矩阵就可以作为深度学习模型的输入特征。

输出层,多模态模型合并

在这里插入图片描述

输出层如何实现多模型合并的这里用代码演示一下,

  1. 首先,我们生成三个全连接层,分别为1024、768和256,并对它们分别进行sigmoid激活函数操作,得到它们的输出结果。
  2. 然后,我们将这三个输出结果合并为一个向量 S 1 S_1 S1
  3. 接着,我们将这三个全连接层合并起来,即将它们的输出结果在特征维度上拼接起来,并对拼接后的结果进行sigmoid激活函数操作,得到 S 2 S_2 S2
  4. 最后,我们比较 S 1 S_1 S1 S 2 S_2 S2的值是否相等。

我将使用PaddlePaddle框架来实现这个过程。

import paddle
import numpy as np

# 创建三个全连接层,分别为1024、768和256
fc1 = paddle.nn.Linear(2048, 1024)
fc2 = paddle.nn.Linear(1024, 768)
fc3 = paddle.nn.Linear(768, 256)

# 创建输入数据
x = np.random.randn(1, 2048).astype('float32')

# 分别对三个全连接层进行sigmoid激活函数操作,并将它们的输出拼接起来
y1 = paddle.concat([paddle.to_tensor(fc1(x)), paddle.to_tensor(fc2(fc1(x))), paddle.to_tensor(fc3(fc2(fc1(x))))], axis=1)
s1 = paddle.nn.functional.sigmoid(y1)

# 将三个全连接层的输出拼接起来,并对拼接后的结果进行sigmoid激活函数操作
y2 = paddle.to_tensor(fc3(paddle.concat([fc2(paddle.concat([fc1(x), fc1(x)], axis=1)), fc1(x)], axis=1)))
s2 = paddle.nn.functional.sigmoid(y2)

# 比较两种方法得到的输出结果是否相等
print("s1:", s1.numpy())
print("s2:", s2.numpy())
print("s1 == s2:", np.allclose(s1.numpy(), s2.numpy(), rtol=1e-6))

在运行上述代码时,我们可以看到, S 1 S_1 S1 S 2 S_2 S2的值非常接近,几乎相等,证明这两种方法得到的输出结果相同,而且从代码的逻辑来看,可以看到几乎一样的,只是修改了to_tensor和concat的顺序。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/779.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【YOLOv8/YOLOv7/YOLOv5/YOLOv4/Faster-rcnn系列算法改进NO.57】引入可形变卷积

文章目录前言一、解决问题二、基本原理三、​添加方法四、总结前言 作为当前先进的深度学习目标检测算法YOLOv8,已经集合了大量的trick,但是还是有提高和改进的空间,针对具体应用场景下的检测难点,可以不同的改进方法。此后的系列…

[JS与链表]普通链表

为什么要用链表要储存一系列数据,最常用的数据结构是数组。数组有个缺点就是在中间插入或删除元素需要移动元素,成本很高。什么是链表链表也是有序元素的集合结构。链表中的元素在内存中并不是连续放置的。每个元素都可以理解为一个对象。包含了本身元素…

简单了解JSP

JSP概念与原理概念: Java Server Pages,Java服务端页面一种动态的网页技术,其中既可以定义 HTML、JS、CSS等静态内容,还可以定义Java代码的动态内容JSP HTML Java, 用于简化开发JSP的本质上就是一个ServletJSP 在被访问时,由JSP容…

博途PLC开放式以太网通信TRCV_C指令应用编程(运动传感器UDP通信)

博途PLC开放式以太网通信TSENG_C指令应用,请参看下面的文章链接: 博途PLC 1200/1500PLC开放式以太网通信TSEND_C通信(UDP)_plc的udp通信_RXXW_Dor的博客-CSDN博客开放式TSEND_C通信支持TCP 、UDP等,关于TSEND_C的TCP通信可以参看下面这篇文章:博途PLC 1200/1500PLC开放式…

opencv识别车道线(霍夫线变换)

目录1、前言2、霍夫线变换2.1、霍夫线变换是什么?2.2、在opencv中的基本用法2.2.1、HoughLinesP函数定义2.2.2、用法3、识别车道3.1、优化3.1.1、降噪3.1.2、过滤方向3.1.3、截选区域3.2、测试其它图片3.2.1、代码3.2.2、图片13.2.3、图片23.2.4、图片31、前言 最近…

C++模拟实现红黑树

目录 介绍----什么是红黑树 甲鱼的臀部----规定 分析思考 绘图解析代码实现 节点部分 插入部分分步解析 ●父亲在祖父的左,叔叔在祖父的右: ●父亲在祖父的右,叔叔在祖父的左: 测试部分 整体代码 介绍----什么是红黑树 红…

2023年江苏省职业院校技能大赛中职网络安全赛项试卷-教师组任务书

2023年江苏省职业院校技能大赛中职网络安全赛项试卷-教师组任务书 一、竞赛时间 9:00-12:00,12:00-15:00,15:00-17:00共计8小时。 二、竞赛阶段 竞赛阶段 任务阶段 竞赛任务 竞赛时间 分值 第一阶段 基础设施设置与安全加固、网络安全事件响应、数…

链表相关oj题

1.Leetcode203 移除链表元素 解题思路:从头节点开始进行元素删除,每删除一个元素,需要重新链接节点 struct ListNode* removeElements(struct ListNode* head, int val){struct ListNode*dummyheadmalloc(sizeof(struct ListNode));dummyhea…

spring5(四):IOC 操作 Bean 管理(基于注解方式)

IOC操作Bean管理(基于xml方式)前言一、注解1、概述二、入门案例1、Bean 的创建2、Bean的自动装配2.1 Autowired2、Qualifie3、Resource4、Value3、扫描组件3.1 配置文件版3.2 注解版4、测试前言 本博主将用CSDN记录软件开发求学之路上亲身所得与所学的心…

Mysql常用命令

mysql连接: [roothost]# mysql -u root -p Enter password:******创建数据库: CREATE DATABASE 数据库名; 删除数据库: drop database 数据库名; 使用mysqladmin删除数据库: [roothost]# mysqladmin -u root -p dr…

【数据结构】链表OJ(二)

Yan-英杰的博客 悟已往之不谏 知来者之可追 目录 一、反转链表 二、合并两个有序链表 三、链表分割 四、链表的回文结构 一、反转链表 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1] 输入:head [1,2] 输出:[2,1] 示例 3&#xf…

Vulnhub靶场----10、LazySysadmin

文章目录一、环境搭建二、渗透流程一、环境搭建 DC-7下载地址:https://download.vulnhub.com/dc/DC-9.zip kali:192.168.144.148 DC-9:192.168.144.157 二、渗透流程 1、信息收集nmap -sV -sT -p- -T4 192.168.144.157思路: 1、80…

基于vivado(语言Verilog)的FPGA学习(3)——FPGA理论知识

基于vivado(语言Verilog)的FPGA学习(3)——FPGA理论知识 文章目录基于vivado(语言Verilog)的FPGA学习(3)——FPGA理论知识1. FPGA介绍1.1.FPGA内部结构(1). 可…

【云原生|Docker】01-docker简介

目录 前言 Docker简介 1. 什么是docker 2. Docker和vm有什么区别 3. Docker架构 4. Docker特性 Docker安装 1. Docker版本介绍 2. Centos7安装docker 3. Docker校验 4. Docker启动 5. Docker配置文件 前言 接下来准备记录云原生系列的相关知识&#x…

Linux防火墙的关闭

查看防火墙的状态打开终端输入如下命令systemctl status firewalld如图所示:running表示防火墙目前处于打开状态输入命令进行关闭防火墙:systemctl stop firewalld如图所示正常的用户是没有权限的,需要输入管理员的密码才能够进行关闭防火墙。…

OpenAI GPT-4震撼发布:多模态大模型

OpenAI GPT-4震撼发布:多模态大模型发布要点GPT4的新功能GPT-4:我能玩梗图GPT4:理解图片GPT4:识别与解析图片内容怎样面对GPT4申请 GPT-4 API前言: 🏠个人主页:以山河作礼。 📝​📝:本文章是帮助大家更加了…

中国版的“ChatGPT”狂飙的机会或许要出现了

⭐️我叫忆_恒心,一名喜欢书写博客的在读研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三…

avue-crud组件的行内编辑实现失焦保存,在没有右侧操作栏的情况下

前言 关于 avue 框架,其实本来不想写一篇随笔记录的,因为目前在网上有很多文章,关于其配置项介绍的比较详细,而且官网上也有对应的文档,这两者结合足以满足大部分的开发需求。 不过,产品经理总会有些不一…

[大二下]什么是NPM

[大二下]什么是npm? 什么是NPM? 最简单来回答: ​ 就是一个包管理器, 一个仓库, 谁需要里面的物品, 谁就拿 npm 全称 Node Package(译: 包,包裹) Manager(译:如下). 直译过来就是 Node的包管理, 但是我们真正咱们约定俗成的称 NPM为"Node的包管理器". npm是Jav…

nvm使用-node版本切换-npm版本-node版本异常导致错误

目录什么是nvm?为什么要用它&#xff1f;它改变的是谁的版本号&#xff1f;安装并使用安装前操作安装使用&#xff08;常用命令&#xff09;nvm -hnvm install \<version\> [arch]nvm listnvm use [version] [arch]其他什么是nvm? .nvm是一个node的版本管理工具&#x…
最新文章