机器学习周报第31周

目录

  • 一、论文阅读
    • 1.1 论文标题
    • 1.2 论文摘要
    • 1.3 论文背景
    • 1.4 提出的系统:MAER
      • 1.4.1 基于Asyncio的预处理
      • 1.4.2 多模态信号下的情感识别
      • 1.4.3 针对情感不匹配情况的自适应融合

一、论文阅读

1.1 论文标题

Beyond superficial emotion recognition: Modality-adaptive emotion recognition system(模态适应的情绪识别系统)

1.2 论文摘要

该论文提出了一个实时的模态自适应情感识别(MAER)系统,解决了现有面部表情识别系统在可靠性和实时操作方面的限制。该系统通过并行处理和模态自适应融合来改善情感识别的性能和可靠性。通过实时试验,该系统的准确性比仅使用外部信号(视频和音频)的情感识别高出33%。该系统能够推断出真实的情感,即使在内部和外部状态之间存在情感不匹配的情况下,通过给予真实情感信号更大的权重。该系统利用轻量级网络和可穿戴设备进行信号采集,实现了实时计算和实际应用。

1.3 论文背景

随着深度学习的发展,面部表情的情感识别取得了进展,但在实际应用中仍存在可靠性的问题。根据提供的来源,这些限制包括面部表情和真实情感之间的不一致性,以及仅使用外部信号进行情感识别的有限可靠性。此外,由于MAER系统基于预训练的神经网络,它对于超出分布范围的输入是脆弱的。为了提高情感识别的可靠性,研究人员开始探索使用音频或生物信号作为辅助模态。该论文提出了一种模态自适应融合的方法,通过并行处理和特征提取来预测主体的综合情感状态。通过实时试验验证了该系统的性能,并取得了比仅使用外部信号的情感识别更高的准确性。

1.4 提出的系统:MAER

该系统是一种多模态情感识别系统,通过融合视频、音频和生物信号来检测内部和外部情感信号之间的差异。该系统采用异步并行处理,可以实时响应多模态信号输入。通过模态自适应融合,该系统可以更加精细地识别内部情感,相比仅使用两种模态信号的传统方法更具优势。该系统在真实环境中进行了多种场景的实时试验,验证了多模态信号的协同效应。该系统的技术贡献包括实时自适应融合三种模态信号、通过实际试验验证系统的可行性,并且能够更好地捕捉真实情感。
在这里插入图片描述

1.4.1 基于Asyncio的预处理

MAER的第1部分是建立一个对多个信号进行实时处理的环境。MAER系统基于三种模态的信号:来自网络摄像头的视频信号,来自麦克风的音频信号,以及来自Shimmer3传感器信号。与大多数基于深度学习的框架一样,MAER系统是用Python实现的。然而,Python基本上都是通过一个全局解释器锁( GIL )来限制任务之间的并行性,从而防止多个任务同时被执行。因此,作为一种替代方案,提供了Asyncio库来保证任务之间的并发性。Asyncio通过基于协程反复测量每个任务的进度,支持任务之间的快速切换,并且具有微型性。通过在读取另一个信号的同时等待一个信号来最小化延迟。
来自三个传感器的多模态数据的帧率,即每秒帧数( fps )各不相同。例如,生物信号的采集速率为1 fps,而视频信号的输入速率为30 fps。音频信号是零星激活的(只有当主体说话时),输入数据的长度是可变的。为了解决这个实际问题,我们的代理不仅独立地处理每个信号,而且并行地从每个信号中识别情绪。因此,MAER系统必须能够异步地处理各模态信号,同时对连续信号做出响应。
为了平滑的系统维护,代理包括以下两个功能:( 1 )当多个任务同时请求时,提供适当的时间延迟以防止开销。( 2 )在情感识别分布式处理的同时,实现了各任务的数据采集。如果在模型运行过程中收到数据请求,则代理配备允许同时获取数据的功能。
在这里插入图片描述

1.4.2 多模态信号下的情感识别

  • 面孔情绪识别
    人脸检测器对人脸图像的预处理和基于深度学习网络的情感分析。采用平幅皂洗机单次曝光检测器( SSD )框架进行人脸检测。该检测器输出的人脸区域裁剪后大小为300 × 300,并输入到后续的网络中。为了从人脸数据中识别情绪,我们使用了FER模型。首先,FER模型可以在潜在特征空间中通过基于批评网络的对抗学习区分强、弱情感组,从而学习到多样性的表情。其次,它基于简单的AlexNet,保证了操作的实时性。特别地,FER模型适用于许多看不见的对象频繁出现的野外环境。该FER模型在ImpactNet数据集上进行预训练,并返回范围为[ -1⋅1 ]的连续AV值。
    在这里插入图片描述
  • 语音情感识别。
    SER过程包括三个步骤:用于信号采集的语音识别、特征提取和情感分析。注意到语音信号只有在主体说话时才会被激活,因此是在话语单元中进行处理的。因此,我们需要确定以下两点来实时采集语音信号:语音的存在和语音的结束。我们使用了能够区分语音和其他声音的WebRTC语音活动检测器,以便只收集语音信号。如果语音开始被工具检测到,则将其记录下来,直到超过一秒钟没有检测到语音信号。采集了长达10 s的语音数据,并对录制的语音信号进行批量填充。
    SER的一些特征是从语音信号中提取的。据报道,速度和加速度特征显示出噪声不敏感的语音识别。因此,利用Speech Py库提取MFCC能量、速度和加速度。在这里,每个特征有13个维度。然后,将这三个特征串联成一个39维的向量,并输入到后续的网络中,即VGGNet。最后,使用IEMOCAP数据集对基于2D CNN的小尺寸VGGNet进行预训练,并将其用于SER。SER模型返回离散的唤醒度和效价值范围为[ - 2,2 ]。因此,我们的小型VGGNet表现出噪声鲁棒性的SER性能。
    在这里插入图片描述
  • 生物信号情绪识别
    类似地,利用生物信号进行情绪识别包括3个步骤:通过可穿戴设备进行信号采集、预处理和情绪分析。如前所述,大多数基于生物信号的情绪识别系统所采用的EEG信号难以实时获取。因此,我们选择了PPG和GSR信号,即使通过简单的可穿戴设备也可以采集。PPG和GSR信号不需要额外的数据处理,可以在一秒内同时采集。在我们的系统中,巴特沃斯滤波器和滑动平均滤波器分别用于去除采集到的原始数据中的高频和低频噪声。为了保证在通用计算机上进行实时计算,必须使用小规模的输入数据或轻量级网络。然而,由于Shimmer3的硬件限制,输入数据大小不能任意减小。因此,我们应该采用轻量级的网络。我们应用了一种针对轻量级网络的知识蒸馏技术。配置了不同结构的教师模型和学生模型。具体来说,一维( 1D )卷积自编码器( CAE )和1D CNN模型分别用作教师和学生模型。最后,我们使用MERTI - Apps数据集对基于生物信号的情绪识别网络进行预训练,返回离散的唤醒度和效价值范围[ -1⋅1 ]。
    在这里插入图片描述

1.4.3 针对情感不匹配情况的自适应融合

所提出的模态自适应融合旨在实现对生物信号表达的内部状态和视听信号表达的外部状态之间的情感不匹配的鲁棒性。在多模态融合之前,进行基于模态的情感识别。设预处理后的视频、音频和生物信号分别为Xv∈Rvt × vw × vh、Xa∈Rat × ad和Xb∈Rbt × bd。
视频:vt、vw、vh分别表示视频帧的帧长、帧宽、帧高;
音频:at、ad分别表示音频信号的序列长度和特征维数;
生物:bt、bd分别表示生物信号的序列长度和特征维数。
用于情感识别的预训练编码器分别记为fv、fa、fb。它们的输出定义如下。
在这里插入图片描述
在这里插入图片描述
由于编码器的数据集覆盖了足够广泛的唤醒度和效价范围,因此我们假设对输出的融合没有负面影响。另一方面,每个模态的输出y具有连续或离散的形式,甚至是不同的范围。因此,我们通过使用ya和yb的置信度分数来调整ya和yb,使其具有与视频信号相同的标准(即,连续)。设ya和yb是离散的AV值.同样,令pa和pb分别表示ya和yb的置信度分数.然后将其转化为连续的AV值: ya = yapa / 2, yb = ybpb。因此,我们可以获得与视频信号相同范围[ - 1至1 ]的连续值。
为了从面部表情和音频信号中提取外部情感状态,我们使用条件平均值,该操作取决于是否启用音频输入,因为音频信号不像常规视频信号那样不规则地出现。
另一方面,一个人可以控制外在的情绪状态,却无法控制生物信号,即内在的情绪状态。因此,如果外部状态与内部状态之间的差距较大,那么主体隐藏内部(或真实)情绪的可能性就很高。基于这个假设,我们提出了一种融合方法,当外部状态和内部状态之间的差距较大时,对代表内部状态的yb赋予较大的权重。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/426812.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

opencv实现图像的融合

实现图像的融合并且输出一张jpg格式的照片。 先显示一个彩色图的照片 然后我以彩色方式读取1.png&#xff0c;以灰度图方式读取3.png这张图片&#xff0c;并且用两个窗口独立地去显示(我后来发现不能把灰度图和彩色图相融合) 然后实现两个融合 #include <opencv2/highgu…

OJ:反转链表

206. 反转链表 - 力扣&#xff08;LeetCode&#xff09; 思路 思路&#xff1a;直接有一个叫移除链表元素的oj&#xff0c;我们在那里因为不想再原链表上修改节点指向&#xff0c;那这个题我们能不能用那个思路呢&#xff0c;其实想一想先拷贝再改变&#xff0c;也挺麻烦的。所…

MySQL 使用 pt-archiver 删除数据

文章目录 前言1. 环境准备1.1 模拟造数1.2 工具安装 2. 删除数据2.1 批次删除表2.2 原理解析2.3 批处理思路 后记 前言 在线核心业务都会有日志表&#xff0c;随着业务持续运行&#xff0c;日志表每天都在增大&#xff0c;最后超过阈值触发空间使用率告警。DBA 处理空间告警时…

Vue开发实例(十一)用户列表的实现与操作

用户列表的实现与操作 一、创建用户页面和路由二、表格优化1、表头自定义2、表格滚动3、加入数据索引4、利用插槽自定义显示 三、功能1、查询功能3、增加4、删除5、修改 一、创建用户页面和路由 创建用户页面 在 src/components/Main 下创建文件夹user&#xff0c;创建文件Us…

java spring 02. AbstractApplicationContext

spring创建对象的顺序&#xff0c;先创建beanfactory&#xff0c;再会把xml文件读取到spring。 public ClassPathXmlApplicationContext(String[] configLocations, boolean refresh, Nullable ApplicationContext parent)throws BeansException {//调用父类的构造方法super(p…

Django Web架构:全面掌握Django模型字段(上)

Django Web架构 全面掌握Django模型字段&#xff08;上&#xff09; - 文章信息 - Author: 李俊才 (jcLee95) Visit me at CSDN: https://jclee95.blog.csdn.netMy WebSite&#xff1a;http://thispage.tech/Email: 291148484163.com. Shenzhen ChinaAddress of this article…

【机器人最短路径规划问题(栅格地图)】基于蚁群算法求解

代码获取方式&#xff1a;QQ&#xff1a;491052175 或者 私聊博主获取 基于蚁群算法求解机器人最短路径规划问题的仿真结果 仿真结果 收敛曲线变化趋势 蚁群算法求解最优解的机器人运动路径 各代蚂蚁求解机器人最短路径的运动轨迹

二、TensorFlow结构分析(1)

目录 1、TF数据流图 1.1 TensorFlow结构分析 1.2 案例 2、图与TensorBoard 2.1 图结构 2.2 图相关操作 2.2.1 默认图 2.2.2 创建图 2.3 TensorBoard&#xff1a;可视化学习 2.3.1 数据序列化 - events文件 2.3.2 启动TensorBoard 2.4 OP 2.4.1 常见OP 2.4.2 指令…

20.图

图的基本概念 1.图的定义 由顶点和边组成的集合&#xff0c;G(V,E) 2.基本概念 邻接点&#xff1a; 对于无向图u v来说&#xff0c;uv互为邻接点 对于有向图u->v来说&#xff0c;v是u的邻接点&#xff0c;但u不是v的临界点 路径&#xff1a; 一个顶点到另一个顶点所经过的…

【漏洞复现】通天星CMSV6车载监控平台getImage任意文件读取漏洞

Nx01 产品简介 深圳市通天星科技有限公司&#xff0c;是一家以从事计算机、通信和其他电子设备制造业为主的企业。通天星车载视频监控平台软件拥有多种语言版本。应用于公交车车载视频监控、校车车载视频监控、大巴车车载视频监控、物流车载监控、油品运输车载监控、警车车载视…

【数据结构】_包装类与泛型

目录 1. 包装类 1.1 基本数据类型和对应的包装类 1.2 &#xff08;自动&#xff09;装箱和&#xff08;自动&#xff09;拆箱 1.2.1 装箱与拆箱 1.2.2 自动&#xff08;显式&#xff09;装箱与自动&#xff08;显式&#xff09;拆箱 1.3 valueOf()方法 2. 泛型类 2.1 泛…

bert 相似度任务训练完整版

任务 之前写了一个相似度任务的版本&#xff1a;bert 相似度任务训练简单版本,faiss 寻找相似 topk-CSDN博客 相似度用的是 0&#xff0c;1&#xff0c;相当于分类任务&#xff0c;现在我们相似度有评分&#xff0c;不再是 0,1 了&#xff0c;分数为 0-5&#xff0c;数字越大…

ChatGPT最新功能“Text To Speech (TTS,文本转语音)”详细解读!

大家好&#xff0c;我是木易&#xff0c;一个持续关注AI领域的互联网技术产品经理&#xff0c;国内Top2本科&#xff0c;美国Top10 CS研究生&#xff0c;MBA。我坚信AI是普通人变强的“外挂”&#xff0c;所以创建了“AI信息Gap”这个公众号&#xff0c;专注于分享AI全维度知识…

Windows环境MySQL全量备份+增量备份

一、环境准备 1.1.安装MySQL 在进行MySQL数据库备份和还原操作时&#xff0c;必须先提前安装好MySQL环境&#xff0c;且MySQL服务已成功开启 如果没有安装MySQL环境&#xff0c;可以参考博客&#xff1a;http://t.csdnimg.cn/h8bHl 如果已成功安装MySQL环境&#xff0c;打开…

Orbit 使用指南 02 | 在场景中生成原始对象| Isaac Sim | Omniverse

如是我闻&#xff1a; Orbit使用指南02将 深入探讨如何使用Python代码在Orbit中向场景生成各种对象&#xff08;或原始对象&#xff09;。一起探索如何生成地面平面、灯光、基本图形形状以及来自USD文件的网格。前置知识&#xff1a;如何生成空白场景&#xff0c;Orbit 使用指…

VUE实现Office文档在线编辑,支持doc/docx、xls/xlsx、ppt/pptx、pdf等

1.微软提供的在线Office预览&#xff08;只能预览&#xff0c;不能编辑&#xff09; https://view.officeapps.live.com/op/view.aspx?src服务器上文档地址&#xff08;http开头&#xff09; 2.国内在线Office方案&#xff1a; 腾讯文档、石墨文档、飞书 优势&#xff1a;跨…

paimon取消hive转filesystem

目录 概述实践关键配置spark sql 结束 概述 公司上一版本保留了 hive &#xff0c;此版优化升级后&#xff0c;取消 hive。 实践 关键配置 同步数据时&#xff0c;配置如下&#xff0c;将形成两个库 # ods库 CREATE CATALOG paimon WITH (type paimon,warehouse hdfs:///d…

CentOS配网报错:network is unreachable

常用命令&#xff1a; 打开&#xff1a; cd /etc/sysconfig/network-scripts/ 修改&#xff1a; vim ifcfg-ens33 打开修改&#xff1a; vim /etc/sysconfig/network-scripts/ifcfg-ens33 保存&#xff1a; 方法1&#xff1a;ESCZZ&#xff08;Z要大写&#xff09; 方…

熔断降级 spring事务

如果有事务处理&#xff0c;会先把事务的自动提交给关闭

Apache Flink连载(三十七):Flink基于Kubernetes部署(7)-Kubernetes 集群搭建-3

🏡 个人主页:IT贫道-CSDN博客 🚩 私聊博主:私聊博主加WX好友,获取更多资料哦~ 🔔 博主个人B栈地址:豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频 目录
最新文章