论文学习——THE USTC SYSTEM FOR ADRESS-M CHALLENGE

文章目录

    • 引言
    • 正文
      • Abstract
            • 模型基本结构
            • 模型效果汇总
      • Introduction介绍
            • 跨语言任务的独特性
            • 思路启发和变化
            • 如何使用预定义好的音频特征
            • 如何使用预定义好的语言模型——语言模型中获取韵律信息
            • 结果说明
      • Dataset数据集
      • Mthods方法
        • 使用设计好的特征进行AD检测
          • 使用的特征
          • 分类和训练方法
        • 3.2 微调预训练的语言模型实习AD检测
      • Submission description and results
      • Conclusion
        • 问题
    • 总结
    • 引用

引言

  • 这篇文章在整个排名中,位列第三,是少有的性能比baseline效果要好的,需要好好阅读一下。

正文

Abstract

模型基本结构
  • 这篇文章是介绍根据自发语音实现多语种AD检测,我们的方法主要有两部分构成:
    • 使用不同的音频特征和静音相关的信息,进行AD检测和MMSE预测
    • 调整wav2vec2.0语言识别模型,将之应用在不同的频段上
模型效果汇总
  • 整体性能是好于baseline模型的,主要分两个方面进行介绍
  • AD检测方面,准确率是73.9%,通过在 0-1000Hz 频段语音上微调我们的双语 wav2vec2.0 预训练模型
  • MMSE回归阶段,RMSE的值为4.610,主要是融合eGeMAPS和静音特征

Introduction介绍

跨语言任务的独特性
  • 目前根本没有任何研究是探索有哪些语音特征,能够转换并且应用在Ad检测上的。ICASSP2023年的信号处理挑战SPGC就是今年就是专门探索这个的,提出了一个基于自发语音的多语言AD检测比赛。
  • 这个比赛主要分为两类,分别是分类任务和MMSE回归任务,都是在英语上进行训练,然后使用希腊语进行训练的。
思路启发和变化
  • 《Disfluencies and Fine-Tuning Pre-Trained Language Models for Detection of Alzheimer’s Disease》这篇文章已经验证过了,对于单模态AD检测而言,语言不流利和预训练的语言模型是十分有效的。
  • 基于此,为了应对这个挑战,我们尝试了两种方法:
    • 使用预先定义好的音频特征
    • 使用预训练的大语言模型
如何使用预定义好的音频特征
  • 第一种方式是使用设计好的音频特征,进行AD检测。静音相关的音频特征和语言是独立的,并且适合别的特征进了融合,在这里,我们是用XGBoost进行Ad分类,使用SVR和XGBoost进行MMSE回归任务。
  • XGBoost
  • SVR
如何使用预定义好的语言模型——语言模型中获取韵律信息
  • 第二种方法是微调预训练的语言模型,用来进行AD检测。我们在原始的英语和希腊语数据集上预训练了wav2vec2.0模型,然后使用低通滤波处理语音信号,保留语言通用韵律信息,这些信息是低频的,然后过滤那些高频的信息,比如说特定于语言的音素信息
结果说明
  • 通过对预训练的wav2vec模型进行微调,使之适应0-1000hz频段的语音,模型在Ad分类的准确率上达到了73.9%
  • 通过将静音特征和eGeMAPS信息进行融合,对于MMSE的回归任务的RMSE分数达到了4.610

Dataset数据集

  • 数据集使用的是ADReSS-M,包括了希腊语和英语两种语言的语音录音。
    • 训练集:237段英语样例,8段希腊语样例
    • 测试集:46段希腊语样例
  • 训练过程中,37段英语数据作为验证集,200段音频作为训练集
  • 8段希腊语作为我们希腊语的验证数据集
  • 然后希腊语和英语的验证集会被同时用来进行训练

Mthods方法

使用设计好的特征进行AD检测
使用的特征
  • 为了获取跨语言的音频表示,基于**《Multilingual Alzheimer’s Dementia Recognition through Spontaneous Speech: a Signal Processing Grand Challenge》**,我们设计了10种静音特征,具体构成如下

    • 每秒钟的静音次数
    • 静音时间和语音持续时间的比率
    • 静音和语音持续时间的统计特征(最大值、最小值、平均值和标准偏差
  • 使用两个声音活动检测工具来定位静音段落的位置,具体使用的工具如下

    • pyannote的递归神经网络
    • 查询概率结束分类器:Improved end-of-query detection for streaming speech recognition

其他声音特征

  • 使用OpenSmile工具来提取ComParE2016(CPE)和eGeMAPS(eGM)作为低频语音特征

其他语言特征

  • 使用Huggingface中的"facebook/wav2vec2-base-960h" model (WB)和"facebook/hubert-base-ls960" model (HB)来提取预训练的语音embedding
  • 然后还有其他的人口统计特征
分类和训练方法
  • 这里使用XGBoost作为AD检测任务,然后使用SVR和XGBoost进行组合,实现MMSE的回归任务
  • 将基于单个特征的分类模型任务进行集成学习,提高模型额准确率。
  • 对于特征分类,这里使用了集成学习策略,包括了早期融合、特征拼接还有后期融合,甚至还有权重投票等多种方式进行测试
  • 对于MMSE的回归任务,这里是平均多个预测回归模型输出,然后将平均结果作为最终的输出,这些效果要好于特征融合和权重投票的方式
3.2 微调预训练的语言模型实习AD检测
  • 看了这个不禁开始感叹,这是什么条件,我靠!他用了8张A100GPU来训练600,000次。

  • 为了能够尽快提高跨语言音频表示的学习,我们预训练了一个基于希腊语和英语的双语wav2vec-base模型,主要是引用了Facebook的开源的wav2vec模型。使用100个小时的双语数据进行预训练,英语和希腊语各50个小时

  • 现有的(“facebook/wav2vec2-large-xlsr-53”)和我们的双语 wav2vec2-base 模型在 200 个不同频段的英语训练样本上使用序列分类头进一步微调(平均汇集输出上具有 Sigmoid 激活函数的线性层)。这些微调模型的 8 个希腊样本的 AD 检测结果如表 1 所示。我们可以看到,对于大多数频率 epoch 配置,我们的预训练模型的性能与在多语言语音数据但没有希腊语上训练的现有模型相同或更好。两个预训练模型都展示了利用低通滤波语音进行跨语言 AD 分类的优势。最后,采用 0-1kHz 和 epoch30 的配置在 237 个英语和 8 个希腊样本上微调我们的双语预训练模型以生成一组提交的结果。

  • 这里没有使用facebook公开的XSLR进行训练,而是自己进行微调的wav2vec模型进行训练

Submission description and results

  • 对于AD检测和MMSE回归任务,分别提交了5次。Ad检测是ID从1到5,MMSE回归任务是ID从6到10.

  • 关于Ad检测任务的结果如下

  • 最终ID5的结果最好,说明基于平衡的双语数据的预训练模型效果最好,能够有效实现跨语言检测。

在这里插入图片描述

  • 回归任务这里就不细看了,又没有相关的数据集,不值得。

Conclusion

  • 通过微调我们预训练的双语模型wav2vec2.0,在0-1000Hz波段的音频数据,我们在分类人中的准确率到达了73.9%,最终的结果表明,使用平衡过后的多语言数据集,并且使用低通率的过滤的语音能够显著调高Ad检测准确性。
  • 回归任务使用了eGeMAPS和静音特征,效果比基本的模型要好,说明这两个指标的效果很好。
问题

总结

引用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/154177.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Uniapp连接iBeacon设备——实现无线定位与互动体验(实现篇)

export default { data() { return { iBeaconDevices: [], // 存储搜索到的iBeacon设备 deviceId: [], data: [], url: getApp().globalData.url, innerAudioContext: n…

x3daudio1_7.dll错误:解决方法和丢失原因及作用

x3daudio1_7.dll是Windows操作系统中的一个动态链接库(DLL)文件,主要作用是为DirectX音频提供支持。DirectX是微软推出的一套多媒体应用程序开发接口,广泛应用于游戏、多媒体制作等领域。x3daudio1_7.dll文件包含了许多与三维音频…

GDPU 商务英语 [初入职场](持续更新……)

👨‍🏫 商务英语(初入职场电子书PDF)提取码:t9ri Unit 1 Job-seeking ✨ 单词 recruitment n. 招聘physical adj. 有形的;物质的profitability n. 盈利launch vt. 将(新产品等)投放市场budget n. 预算account for 占…

Java毕业设计心得体会

1. 开始准备选题、开题报告 大四上学期开学时开始准备论文的,首先是确定论文主题,看自己想做什么毕业设计,可以选取之前接触过的,做过的东西,这样快一些,我之前一直是学Java的,就打算直接用Jav…

博物馆信息展示预约小程序的效果如何

随着大环境放开,如博物馆等场所也开始了正常营业,而这些场所在市场中中的需求度很广,每天客流量也相对可观。 但依然发现博物馆痛点所在。 通过【雨科】平台搭建博物馆小程序展示所有内容信息,覆盖微信、百度、头条、抖音、支付宝…

京联易捷科技与劳埃德私募基金管理有限公司达成合作协议签署

京联易捷科技与劳埃德私募基金管理有限公司今日宣布正式签署合作协议,双方在数字化进程、资产管理与投资以及中英金融合作方面将展开全面合作。 劳埃德(中国)私募基金管理有限公司是英国劳埃德私募基金管理有限公司的全资子公司,拥有丰富的跨境投资经验和卓越的募资能力。该集…

遥感领域最热门的研究主题介绍

遥感是有效地直接从地球收集数据的最重要技术之一。由于生态信息科学的进步,遥感技术在日常生活的多个研究方面变得非常有价值,其中包括大气物理学、生态学、土壤和水污染、土壤科学、地质学、火山爆发和地球演化。以下是遥感领域的主要趋势研究主题&…

nginx服务器

nginx反向代理 nginx 反向代理的好处: 提高访问速度 因为nginx本身可以进行缓存,如果访问的同一接口,并且做了数据缓存, nginx就直接可把数据返回,不需要真正地访问服务端,从而提高访问速度。 进行负载均衡…

振南技术干货集:比萨斜塔要倒了,倾斜传感器快来!(2)

注解目录 1、倾斜传感器的那些基础干货 1.1 典型应用场景 (危楼、边坡、古建筑都是对倾斜敏感的。) 1.2 倾斜传感器的原理 1.2.1 滚珠式倾斜开关 1.2.2 加速度式倾斜传感器 1)直接输出倾角 2)加速度计算倾角 3)倾角精度的提高 (如果…

【C++面向对象】13. 接口 / 抽象类*

文章目录 【 1. 抽象类 】1.1 抽象类的定义1.2 抽象类的应用条件1.3 实例 【 2. 设计策略 】 接口描述了类的行为和功能,而不需要完成类的特定实现。C 接口是使用 抽象类(abstract base class,也称为ABC) 来实现的。 【 1. 抽象类…

macos 配置ndk环境

选择Android Studio下默认的ndk环境 mac电脑的ndk默认路径一般是 /Users/user_name/Library/Android/sdk/ndk/version_code 其中user_name为自己电脑的用户名,version_code为自己ndk安装的版本号,比如我这里电脑的ndk路径就是 /Users/zhangsan/Libra…

智慧环保:科技驱动下的环境保护新篇章

智慧环保:科技驱动下的环境保护新篇章 环境保护已经成为当今社会的重要议题,而科技的飞速发展为我们开启了智慧环保的新篇章。在这篇文章中,我们将介绍智慧环保所带来的机会和创新,以及科技在环境保护中的重要作用。 智慧环保的理…

Unity中Shader图形流水线中的纹理

文章目录 前言一、图形流水线中的纹理1、我们的纹理一般用于:2、纹理的获取方式: 二、纹理的分类1、颜色纹理2、几何纹理 三、纹理管线四、纹理的作用1、纹理可以 替换 漫反射模型中的 漫反射系数Kd2、纹理还有的作用 前言 Unity中Shader图形流水线中的…

【入门篇】1.3 redis客户端之 jedis 高级使用示例

文章目录 0.前言1. 发布和订阅消息2. 事务操作3. 管道操作4. jedis 支持哨兵模式5. jedis 支持集群模式5. 参考链接 0.前言 Jedis是Redis的Java客户端,它支持所有的Redis原生命令,使用方便,且可以与Java项目无缝集成。 该库的最新版本支持Re…

国内领先的五大API接口供应商

API(Application Programming Interface)接口,现在很多应用系统中常用的开放接口,对接相应的系统、软件功能,简化专业化的程序开发。作者用过的国内比较稳定的API接口供应商有如下几家,大家可以参考选择&am…

Android设计模式--状态模式

真知即所以为行,不行不足谓之知 一,定义 当一个对象的内在状态改变时,允许改变其行为,这个对象看起来像是改变了其类。 这么说可能很难理解,通俗来讲就是当一个对象它有多种状态的时候,把每一种状态的行为…

C++ 之字符串、字符数组与字符指针(*、**)

C 之字符串、字符数组与字符指针(*、**) 最近频繁使用字符串指针,有时候想取值或者复制,常用到问题,在此总结一下字符串的处理、指针的使用长期更新版~ 1. char 使用相关 1.1 内存使用 首先介绍一下C语言中的数据类型: 下图给…

关于 内部类 你懂多少?

目录 1. 什么是内部类? 2. 内部类的分类 3. 内部类 3.1 实例内部类 3.2 静态内部类 4. 局部内部类 5. 匿名内部类 6.对象的打印 “不积跬步无以至千里,不积小流无以成江海。”每天坚持学习,哪怕是一点点!!&a…

【MATLAB源码-第79期】基于蚯蚓优化算法(EOA)的栅格路径规划,输出做短路径图和适应度曲线。

操作环境: MATLAB 2022a 1、算法描述 蚯蚓优化算法(Earthworm Optimisation Algorithm, EOA)是一种启发式算法,灵感来源于蚯蚓在自然界中的行为模式。蚯蚓优化算法主要模仿了蚯蚓在寻找食物和逃避天敌时的行为策略。以下是蚯蚓…

桂院校园导航 | 云上高校导航 云开发项目 二次开发教程 1.3

Gitee代码仓库:桂院校园导航小程序 GitHub代码仓库:GLU-Campus-Guide 演示视频 中国大学生计算机设计大赛-移动应用与开发-云上高校导航 升级日志 1.3 优化了小程序的数据存储方式,对部分页面进行了调整,调整了功能和代码。 引…
最新文章