ICASSP2023年SPGC多语言AD检测的论文总结

文章目录

    • 引言
    • 正文
      • Abstract
      • Related Article
        • No.1: CONSEN: COMPLEMENTARY AND SIMULTANEOUS ENSEMBLE FOR ALZHEIMER'SDISEASE DETECTION AND MMSE SCORE PREDICTION
          • 特征相关
          • 模型结构
          • 数据处理
          • 结果分析
        • No.2: CROSS-LINGUAL TRANSFER LEARNING FOR ALZHEIMER'S DETECTION FROM SPONTANEOUS SPEECH
          • 特征相关
          • 模型结构
          • 数据处理
          • 结果分析
        • No.3: THE USTC SYSTEM FOR ADRESS-M CHALLENGE
          • 特征相关
          • 模型结构
          • 数据处理
          • 结果分析
        • No.4: Baseline/MULTILINGUAL ALZHEIMER'S DEMENTIA RECOGNITION THROUGH SPONTANEOUS SPEECH: A SIGNAL PROCESSING GRAND CHALLENGE
          • 特征相关
          • 模型结构
          • 数据处理
          • 结果分析
        • No.5: EXPLORING LANGUAGE-AGNOSTIC SPEECH REPRESENTATIONS USING DOMAIN KNOWLEDGE FOR DETECTING ALZHEIMER’S DEMENTIA
          • 特征相关
          • 模型结构
          • 数据处理
          • 结果分析
        • No.6: Cross-lingual Alzheimer's Disease detection based on paralinguistic and pre-trained features
          • 特征相关
          • 模型结构
          • 数据处理
          • 结果分析
    • 总结

引言

  • 已经读完了所有的文章,这里需要对于跨语言AD检测的比赛进行一个综合性的总结。
  • 主要是总结一下几个方向
    • 这些论文尝试了哪些特征?是如何实现的?结论如何?
    • 这些论文是如何实现分类问题的?如何实现检测问题的?
    • 这些论文是如何处理数据的?
    • 这些论文是如何改良结果的。

正文

Abstract

  • 在第一部分,首先对每一篇论文的技术方案从四个方面进行总结,分别是特征相关、模型实现相关、处理数据的方式还有结果分析。正在第二部分,我们将对左右文章进行总结,从使用特征,实现方法,数据集处理进行分析。
  • 最后一部分,将会对全文进行一个总结,总结出下一步应该干什么。

Related Article

No.1: CONSEN: COMPLEMENTARY AND SIMULTANEOUS ENSEMBLE FOR ALZHEIMER’SDISEASE DETECTION AND MMSE SCORE PREDICTION
  • 相关论文学习链接:链接
特征相关

音频特征尝试Acoustic Features

  • wav2vec:53个跨语言模型得出,对应项目链接,但是没有在希腊语上调整过。
  • i-vector:链接
  • x-vector:链接
  • VGGish:链接

不流利特征Disfluency Features Extraction

  • Unnatural speech Breaks不自然的停顿
  • longer speech durations更长时间的发音
  • more speech pause更多的语音停顿
  • slower speech rate更慢的语音速率
  • 。。。一共18种不流利特征
模型结构

在这里插入图片描述

  • 特征融合的效果更好,使用Majority Voting解决
数据处理

数据进行分段,按照角色和停顿进行分段
在这里插入图片描述

结果分析
  • 不流利特征集的分类效果,要好于音频特征集,所以disfluency特征更加不受语言的限制
  • 特征融合之后,效果有显著提升。
No.2: CROSS-LINGUAL TRANSFER LEARNING FOR ALZHEIMER’S DETECTION FROM SPONTANEOUS SPEECH
  • 鲁汶大学的比赛结果,第二名,是唯一一个公开代码,公开pt文件的队伍。
  • 文章学习链接:相关链接
特征相关

音频特征

  • eGeMAPS:来自OpenSmile,相关链接
模型结构
  • 主要是对于eGeMAPS的处理,分为4个部分

这里没有细看,不过可以结合代码进行学习

数据处理

数据平衡和补充

  • 去除没有MMSE分数的AD患者
  • 去除8个AD患者,保证AD患者和健康人的数据平衡,都是114个人
  • 补充未知的数据,确保所有人的特征都有

数据扩容——分段

  • 将数据分为10段等长的段落,然后对每段计算对应的OpenSmile的eGeMAPS特征
结果分析
  • 单纯从使用结果上来看,这里仅仅使用了音频特征,分类的准确率就达到了88.9%,所以有效利用音频特征,音频特征也是能够有效进行分类的。
No.3: THE USTC SYSTEM FOR ADRESS-M CHALLENGE
  • 综合排名第三的是中科大的论文,整体性能不错,但是没有提供源代码,参考的信息不多。
  • 文章学习链接:相关链接
特征相关

Silence Features静音特征

  • 静音的次数、静音时间和语音持续时间的比率、静音和语音持续时间的统计特征

Acoustic Features音频特征

  • 低频段音频特征
  • eGeMAPS(eGM):来自OpenSmile,相关链接
  • ComParE2016(CPE):来源同上

Language Features语义特征

  • facebook/wav2vec2-base-960h" model (WB):对应链接
    • 使用英语和希腊语数据集进行微调强化,保证语义特征的有效性
  • facebook/hubert-base-ls960" model (HB):对应链接
模型结构
  • 中科大探索的很全面,不仅仅尝试了前两篇论文的所有特征,还额外增加了语义特征,
数据处理

提取韵律信息

  • 对声音使用低通滤波,保留语言中通用的韵律信息,过滤表示语言音素信息的高频信息
结果分析

在这里插入图片描述

  • 中科大探索的很全面,不仅仅尝试了前两篇论文的所有特征,还额外增加了语义特征,同时还使用了不同的融合方式进行测试,但是效果比单单使用某一种特征的效果还差,这不排除,没有对数据进行有效地处理,同时连接的方式有问题。

  • ID5仅仅使用了语义特征,效果最好,说明了语义特征有效性,但是需要使用特定双语数据集进行平衡微调才有效。

  • 做了这么多实验,只是想证明单独使用音频特征的有效性。

No.4: Baseline/MULTILINGUAL ALZHEIMER’S DEMENTIA RECOGNITION THROUGH SPONTANEOUS SPEECH: A SIGNAL PROCESSING GRAND CHALLENGE
  • 综合排名第四的是baseline,很诧异,二十多支参赛队伍,只有三个队伍的效果是超过baseline的。说明baseline的效果还是很厉害的。
  • 文章学习链接:相关链接
特征相关

Acoustic Features音频特征

  • eGeMAPS(eGM):来自OpenSmile,相关链接
    • F0(基频)半音、响度、频谱流、MFCC(梅尔频率倒谱系数)、抖动、闪变、F1、F2、F3、alpha比、Hambarg指数以及斜率V0特征,以及它们最常见的统计功能,每帧总共88个特征
模型结构

在这里插入图片描述

  • 并没使用很复杂方式进行特征提取,而是使用传统的机器学习进行处理,并没有使用任何其他的方法。
数据处理

标准化音频文件

  • 使用ffmpeg的EBU R128扫描器滤波器来标准化音频文件的音量

帧化处理

  • 对音频应用了1秒钟的滑动窗口(没有重叠),并在这些帧上提取了eGeMAPS特征
结果分析
  • baseline虽然是参考的基准,但是效果各项都很全面,都很厉害,同时他处理音频方式的也很独特,需要好借鉴学习。
  • baseline证明了传统音频特征的有效性,同时对声音进行帧化处理,提取的特征更加明确。
No.5: EXPLORING LANGUAGE-AGNOSTIC SPEECH REPRESENTATIONS USING DOMAIN KNOWLEDGE FOR DETECTING ALZHEIMER’S DEMENTIA
  • 综合排名第五的是加拿大大学的阿尔伯特大学,没有提供源代码,但是也是仅有的五篇文章之一,总结一下。
  • 文章学习链接:相关链接
特征相关

word level duration features词级持续时间特征集

  • 这个特征集主要描述的是说话者是否使用了短词或者长词,以及他们说出他们的时间
    • Whisper实现

Pause rate features set停顿率特征集

  • 这个特征集描述的是自发语音中的检测出的停顿的分布。
    • OpenSmile实现

Speech intelligibility feature set

  • 这个特征集描述了听者可以理解语音的易用性和准确性,这里由语音识别模型分配给每个识别词的词级置信度分数表示。
    • 感觉欠妥,这部分过分牵扯到了口音清晰的重要性
模型结构
  • 特征提取 + 常规机器学习方法分类
数据处理

统一数据模态

  • 使用Whisper-Large将所有音频进行撰写,然后在进行翻译,统一翻译为英文进行处理。
结果分析
  • 三种特征整体来说还是很有效的,最起码具有可理解性,而且作者尝试了不同的结合方式。
No.6: Cross-lingual Alzheimer’s Disease detection based on paralinguistic and pre-trained features
  • 综合排名第六的是清华大学的分析文章,也是我看来应该是最好的,而且是最有潜力的文章,单单使用了单一模态的特征效率就很高,如果特征进行融合,效果应该会更高。
  • 文章学习链接:相关链接
特征相关

Paralinguistic features based approach副语言特征相关方法——OpenSmile

  • 之前已经说过了,副语言特征对于单语言而言效果很棒,这里使用开源的OpenSmile框架对副语言特征进行副语言特征提取,主要是用了三个副语言特征数据集
    • IS10-Paralinguistics-compat feature set
    • IS10-Paralinguistics feature set
    • IS11-speaker-state feature set.

Pre-trained acoustic features based approach基于预训练模型提取的音频特征——XLSR-53

  • 我们这里用的是预先训练过的XLSR-53模型作为预训练模型,这个东西是跨语言预训练模型,在53种语言数据集上进行过训练。

Pre-trained linguistic features based approac基于预训练的语义特征方法——Whisper

  • 翻译之后的文本将会用来对RoBERTa模型进行微调。最终的分类任务和回归任务是通过调整最终神经元的数量来实现的。
模型结构

在这里插入图片描述

数据处理
  • 并未涉及到很多数据处理方式
结果分析

在这里插入图片描述

总结

目前来看,总共6篇文章,各自使用了不同的方法,尝试了不同的特征,根据每一篇文章的内容可以做出来如下的一些总结

  • 第一篇文章,证明了disfluency feature的有效性,同时AD任务和MMSE分类任务的相关性。

  • 第二篇文章,证明了在有效的数据处理的情况下,eGeMAPS特征的有效性。

  • 第三篇文章,证明了通过平衡数据微调之后的语义特征,具有跨语言的特性,效果较好。

    • 有效的链接,应该是比单模态的效果要好;无效的链接,只会让融合之后的结果更差。
  • 第四篇文章——baseline,证明了常见音频特征eGeMAPS的有效性,同时帧化处理之后的特征更加明显。

  • 第五篇文章,虽然他自己说这两种特征有效,但是可理解性的定义并没有牵扯到语义,个人认为没有什么效果,这篇文章没啥效果。

  • 第六篇文章,证明了副语言特征的的有效性,证明了语义特征的和文本内容高度绑定,并不能实现跨语言分析。

  • 综上,可以在特征融合上下功夫,每一篇文章都没有时间去充分证明特征融合的有效性,或者说做的融合都很糟糕。最起码不应该比原来的模型差。

  • 除此之外,还应该尝试多种数据预处理方式,包括帧化,低频过滤、文本翻译转写等操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/166149.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Flink】窗口(Window)

窗口理解 窗口(Window)是处理无界流的关键所在。窗口可以将数据流装入大小有限的“桶”中,再对每个“桶”加以处理。 本文的重心将放在 Flink 如何进行窗口操作以及开发者如何尽可能地利用 Flink 所提供的功能。 对窗口的正确理解&#xff…

函数式编程框架 functionaljava 简介

文章目录 一、函数式编程起源二、functionaljava 框架简介 一、函数式编程起源 ​ 函数式编程起源于数理逻辑(范畴论,Category Theory),起源于λ演算,这是一种演算法,它定义一些基础的数据结构&#xff0c…

蓝桥杯单片机综合练习——工厂灯光控制

一、题目 二、代码 #include <reg52.h>sfr AUXR 0x8e; //定义辅助寄存器sbit S5 P3^2; //定义S5按键引脚 sbit S4 P3^3; //定义S4按键引脚unsigned char led_stat 0xff; //定义LED当前状态 unsigned char count 0; //定义50ms定时中断累…

012 C++ AVL_tree

前言 本文将会向你介绍AVL平衡二叉搜索树的实现 引入AVL树 二叉搜索树虽可以缩短查找的效率&#xff0c;但如果数据有序或接近有序普通的二叉搜索树将退化为单支树&#xff0c;查找元素相当于在顺序表中搜索元素&#xff0c;效率低下。因此&#xff0c;两位俄罗斯的数学家G.M…

【Feign】 基于 Feign 远程调用、 自定义配置、性能优化、实现 Feign 最佳实践

&#x1f40c;个人主页&#xff1a; &#x1f40c; 叶落闲庭 &#x1f4a8;我的专栏&#xff1a;&#x1f4a8; SpringCloud MybatisPlus JVM 石可破也&#xff0c;而不可夺坚&#xff1b;丹可磨也&#xff0c;而不可夺赤。 Feign 一、 基于 Feign 远程调用1.1 RestTemplate方式…

PyTorch神经网络-激励函数

在PyTorch 神经网络当中&#xff0c;使用激励函数处理非线性的问题&#xff0c;普通的神经网络出来的数据一般是线性的关系&#xff0c;但是遇到比较复杂的数据的话&#xff0c;需要激励函数处理一些比较难以处理的问题&#xff0c;非线性结果就是其中的情况之一。 FAQ:为什么要…

高精度算法【Java】(待更新中~)

高进度加法 在Java中可以使用BigInteger进行高精度计算&#xff0c;除此也可以仿照竖式相加的计算原理进行计算。 BigInteger 提供所有 Java 的基本整数操作符的对应物&#xff0c;并提供 java.lang.Math 的所有相关方法。另外&#xff0c;BigInteger 还提供以下运算&#xff1…

全新酷盒9.0源码:多功能工具箱软件的最新iapp解决方案

全能工具箱软件酷盒&#xff1a;源码提供iapp解决方案&#xff0c;自定义打造个性化体验 酷盒是一款功能丰富的工具箱软件&#xff0c;内置众多实用功能&#xff0c;并实时更新热门功能。该软件还拥有丰富的资源库&#xff0c;用户可以在线畅玩游戏、免费下载音乐等。 我们提…

【Django-DRF用法】多年积累md笔记,第(4)篇:Django-DRF反序列化详解

本文从分析现在流行的前后端分离Web应用模式说起&#xff0c;然后介绍如何设计REST API&#xff0c;通过使用Django来实现一个REST API为例&#xff0c;明确后端开发REST API要做的最核心工作&#xff0c;然后介绍Django REST framework能帮助我们简化开发REST API的工作。 全…

C++基础从0到1入门编程(三)

系统学习C 方便自己日后复习&#xff0c;错误的地方希望积极指正 往期文章&#xff1a; C基础从0到1入门编程&#xff08;一&#xff09; C基础从0到1入门编程&#xff08;二&#xff09; 参考视频&#xff1a; 1.黑马程序员匠心之作|C教程从0到1入门编程,学习编程不再难 2.系统…

开源与闭源:大模型发展的双重走向

目录 前言开源和闭源的优劣势比较开源的优势闭源的优势 开源和闭源对大模型技术发展的影响对技术发展的影响对数据共享的影响对业务拓展的影响 开源与闭源的商业模式比较开源的商业模式闭源的商业模式 处在大模型洪流中&#xff0c;向何处去&#xff1f;结语 前言 随着人工智能…

python趣味编程-5分钟实现一个俄罗斯方块游戏(含源码、步骤讲解)

Python俄罗斯方块游戏是一款基于GUI的标题匹配益智游戏,非常容易理解和使用。说到游戏玩法,一切都和真实的一样。 用户必须管理俄罗斯方块的随机序列。在这个Python 俄罗斯方块游戏项目中,我将教您如何使用 Python 制作俄罗斯方块游戏。 Python 代码中的俄罗斯方块游戏:项目…

如何在虚拟机的Ubuntu22.04中设置静态IP地址

为了让Linux系统的IP地址在重新启动电脑之后IP地址不进行变更&#xff0c;所以将其IP地址设置为静态IP地址。 查看虚拟机中虚拟网络编辑器获取当前的子网IP端 修改文件/etc/netplan/00-installer-config.yaml文件&#xff0c;打开你会看到以下内容 # This is the network conf…

开源WIFI继电器之硬件电路

一、原理图 源文件 二、原理图说明 1、器件说明 U4&#xff1a;ESP8285模块 U6&#xff1a;触发器 U3&#xff1a;继电器 2、继电器状态检测说明 检测继电器线圈是否通电来判断继电器是否导通&#xff0c;当Q1不导通时&#xff0c;Q1集电极的电压为3.3V&#xff0c;经…

【运维篇】Redis常见运维命令详解

文章目录 1. 前言2. 连接管理命令详解2.1 AUTH命令2.2 PING命令2.3 SELECT命令2.4 QUIT命令 3. 服务器管理命令详解3.1 FLUSHALL命令3.2 SAVE/BGSAVE命令3.3 SHUTDOWN命令 4. 安全管理命令详解4.1 CONFIG命令4.1.1 CONFIG SET命令用法4.1.2 CONFIG GET命令用法 4.2 AUTH命令 5.…

T10 数据增强

文章目录 一、准备环境和数据1.环境2. 数据 二、数据增强&#xff08;增加数据集中样本的多样性&#xff09;三、将增强后的数据添加到模型中四、开始训练五、自定义增强函数六、一些增强函数 &#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f…

【算法】滑动窗口题单——2.不定长滑动窗口(求最长/最大)

文章目录 3. 无重复字符的最长子串1493. 删掉一个元素以后全为 1 的最长子数组904. 水果成篮1695. 删除子数组的最大得分2841. 几乎唯一子数组的最大和2024. 考试的最大困扰度1004. 最大连续1的个数 III1438. 绝对差不超过限制的最长连续子数组2401. 最长优雅子数组解法1——维…

[AutoSar]导出task mapping 表到excel

目录 关键词平台说明背景实现方法 关键词 嵌入式、C语言、autosar 平台说明 项目ValueOSautosar OSautosar厂商vector芯片厂商TI编程语言C&#xff0c;C编译器HighTec (GCC) 背景 为了做文档输出&#xff0c;要导出task mapping 到excel。 实现方法 1.按住shift&#xf…

IDEA自动注解设置(中文版)

IDEA自动注解设置 1、添加类自动注释 文件 - 设置 - 编辑器 - 文件和代码模板 - Include - File Header /** *description&#xff1a;TODO *author&#xff1a; ${USER} *create&#xff1a; ${DATE} ${TIME} */2、添加类方法自动注释 文件 - 设置 - 编辑器 - 实时模版 - …

NSS [NCTF 2018]小绿草之最强大脑

NSS [NCTF 2018]小绿草之最强大脑 题目要求我们输入一个位数>21的正数&#xff0c;带入表达式并且计算结果。 查看源码发现hint&#xff0c;有源码泄露。 拿dirsearch扫一下。扫到了一个备份文件。 python dirsearch.py -u http://node4.anna.nssctf.cn:28805/访问/index.…
最新文章