【AI视野·今日Sound 声学论文速览 第三十七期】Tue, 31 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Tue, 31 Oct 2023
Totally 11 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

DCHT: Deep Complex Hybrid Transformer for Speech Enhancement
Authors Jialu Li, Junhui Li, Pu Wang, Youshan Zhang
当前大多数基于深度学习的语音增强方法仅在频谱图或波形域中运行。尽管已经提出了结合波形域和频谱图域输入的跨域变压器,但其性能还可以进一步提高。在本文中,我们提出了一种新颖的深度复杂混合变压器,它集成了频谱图和波形域方法来提高语音增强的性能。所提出的模型由两部分组成:频谱图域中的复杂 Swin Unet 和波形域中的双路径变压器网络 DPTnet。我们首先在频谱图域中构建复杂的 Swin Unet 网络,并在复杂的音频频谱中进行语音增强。然后,我们通过添加内存压缩注意力来引入改进的 DPT。我们的模型能够学习多域特征,以互补的方式减少不同域上的现有噪声。

DPATD: Dual-Phase Audio Transformer for Denoising
Authors Junhui Li, Pu Wang, Jialu Li, Xinzhe Wang, Youshan Zhang
最近基于高性能变压器的语音增强模型表明,时域方法可以实现与时频域方法相似的性能。然而,时域语音增强系统通常接收由大量时间步长组成的输入音频序列,这使得对极长序列进行建模并训练模型以充分执行变得具有挑战性。在本文中,我们利用较小的音频块作为输入来实现音频信息的有效利用,以解决上述挑战。我们提出了一种用于去噪的双相音频变压器 DPATD,这是一种在深层结构中组织变压器层的新颖模型,以学习干净的音频序列以进行去噪。 DPATD 将音频输入分割成更小的块,其中输入长度可以与原始序列长度的平方根成正比。与常用的自注意力模块相比,我们的内存压缩可解释注意力非常高效并且收敛速度更快。

JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation
Authors Yao Yao, Peike Li, Boyu Chen, Alex Wang
随着生成人工智能的快速发展,文本到音乐合成任务已成为从头开始生成音乐的一个有前途的方向。然而,对多轨生成的更细粒度控制仍然是一个开放的挑战。现有模型表现出强大的原始生成能力,但缺乏创作单独曲目并以可控方式组合它们的灵活性,这与人类作曲家的典型工作流程不同。为了解决这个问题,我们提出了 JEN 1 Composer,这是一个统一的框架,可以通过单个模型有效地模拟多轨音乐的边际分布、条件分布和联合分布。 JEN 1 Composer 框架展示了无缝整合任何基于扩散的音乐生成系统(例如 textit)的能力。 Jen 1,增强了其多功能多轨音乐生成的能力。我们引入了一种课程培训策略,旨在逐步指导模型从单轨生成过渡到多轨组合的灵活生成。在推理过程中,用户能够迭代地制作和选择满足其偏好的音乐曲目,随后按照提议的人类人工智能协同创作工作流程逐步创建整个音乐作品。定量和定性评估展示了可控和高保真多轨音乐合成的最先进性能。拟议的 JEN 1 Composer 代表了交互式 AI 促进音乐创作和作曲的重大进步。

Deep Audio Analyzer: a Framework to Industrialize the Research on Audio Forensics
Authors Valerio Francesco Puglisi, Oliver Giudice, Sebastiano Battiato
Deep Audio Analyzer 是一个开源语音框架,旨在简化神经语音处理管道的研究和开发过程,允许用户以快速且可重复的方式构思、比较和共享结果。本文描述了旨在支持音频取证领域共同感兴趣的多项任务的核心架构,展示了创建新任务从而定制框架的可能性。借助深度音频分析器,执法机构和研究人员等取证检查人员将能够可视化音频特征,轻松评估预训练模型的性能,只需点击几下鼠标即可组合深度神经网络模型来创建、导出和共享新的音频分析工作流程。该工具的优点之一是加快音频取证分析领域的研究和实际实验,从而通过导出和共享管道来提高实验的可重复性。所有功能均在模块中开发,用户可以通过图形用户界面访问。

Feature Aggregation in Joint Sound Classification and Localization Neural Networks
Authors Brendan Healy, Patrick McNamee, Zahra Nili Ahmadabadi
这项研究探讨了深度学习技术在联合声音信号分类和定位网络中的应用。当前最先进的声源定位深度学习网络在其架构中缺乏特征聚合。特征聚合通过整合来自不同特征尺度的信息来增强模型性能,从而提高特征的鲁棒性和不变性。这在 SSL 网络中尤其重要,因为 SSL 网络必须区分直接和间接声信号。为了解决这一差距,我们将特征聚合技术从计算机视觉神经网络应用到信号检测神经网络。此外,我们提出了用于特征聚合的尺度编码网络 SEN,以对不同尺度的特征进行编码,压缩网络以提高计算效率的聚合。为了评估 SSL 网络中特征聚合的功效,我们将以下计算机视觉特征聚合子架构集成到 SSL 控制架构中:路径聚合网络 PANet、加权双向特征金字塔网络 BiFPN 和 SEN。使用两个信号分类指标和两个到达方向回归指标来评估这些子架构。 PANet 和 BiFPN 是计算机视觉模型中已建立的聚合器,而所提出的 SEN 是更紧凑的聚合器。结果表明,在声音信号分类和定位方面,包含特征聚合的模型优于控制模型、声音事件定位和检测网络 SELDnet。

Exploring the Emotional Landscape of Music: An Analysis of Valence Trends and Genre Variations in Spotify Music Data
Authors Shruti Dutta, Shashwat Mookherjee
本文使用 Spotify 音乐数据对音乐情感和趋势进行了复杂的分析,包括通过 Spotipi API 提取的音频特征和价分数。该研究采用回归模型、时间分析、情绪转变和流派调查,揭示了音乐情感关系中的模式。采用线性回归模型、支持向量、随机森林和岭回归模型来预测效价分数。时间分析揭示了效价分布随时间的变化,而情绪转变探索则阐明了播放列表中的情绪动态。

Seeing Through the Conversation: Audio-Visual Speech Separation based on Diffusion Model
Authors Suyeon Lee, Chaeyoung Jung, Youngjoon Jang, Jaehun Kim, Joon Son Chung
这项工作的目标是使用视觉提示从混合声音中提取目标说话者的声音。现有的视听语音分离工作已经证明了其具有良好的清晰度的性能,但保持自然度仍然是一个挑战。为了解决这个问题,我们提出了 AVDiffuSS,一种基于扩散机制的视听语音分离模型,该机制以其生成自然样本的能力而闻名。为了有效融合两种扩散模式,我们还提出了一种基于交叉注意力的特征融合机制。该机制是专门为语音领域量身定制的,用于在语音生成中集成来自视听对应的语音信息。通过这种方式,融合过程保持了特征的高时间分辨率,而无需过多的计算要求。

Sound of Story: Multi-modal Storytelling with Audio
Authors Jaeyeon Bae, Seokhoon Jeong, Seokun Kang, Namgi Han, Jae Yon Lee, Hyounghun Kim, Taehwan Kim
现实世界中讲故事是多模式的。当一个人讲故事时,可以将所有的可视化和声音与故事本身一起使用。然而,先前关于讲故事数据集和任务的研究很少关注声音,尽管声音也传达了故事的有意义的语义。因此,我们建议通过建立一个称为背景声音的新组件来扩展故事理解和讲述领域,该组件是基于故事上下文的音频,没有任何语言信息。为此,我们引入了一个名为 Sound of Story SoS 的新数据集,它将图像和文本序列与故事的相应声音或背景音乐配对。据我们所知,这是最大的精心策划的声音讲故事数据集。我们的 SoS 数据集包含 27,354 个故事,每个故事有 19.6 张图像,以及 984 小时的语音解耦音频(例如背景音乐和其他声音)。作为用声音和数据集讲故事的基准任务,我们提出了模态之间的检索任务,以及图像文本序列的音频生成任务,为它们引入了强大的基线。我们相信所提出的数据集和任务可能有助于阐明声音叙事的多模式理解。

Pre-trained Speech Processing Models Contain Human-Like Biases that Propagate to Speech Emotion Recognition
Authors Isaac Slaughter, Craig Greenberg, Reva Schwartz, Aylin Caliskan
之前的研究已经证实,一个人的人口统计特征和言语风格会影响语音处理模型的表现。但这种偏差从何而来 在这项工作中,我们提出了语音嵌入关联测试 SpEAT,这是一种用于检测用于许多语音任务预训练模型的一类模型中的偏差的方法。 SpEAT 的灵感来自自然语言处理中的词嵌入关联测试,该测试量化模型表示不同概念(例如种族或效价、某些事物的愉快或不愉快)的内在偏差,并捕获模型在大规模社交网络上训练的程度。文化数据已经了解了类似人类的偏见。使用 SpEAT,我们测试了 16 个英语语音模型中的六种类型的偏差,其中包括 4 个也接受多语言数据训练的模型,这些模型来自 wav2vec 2.0、HuBERT、WavLM 和 Whisper 模型系列。我们发现,有 14 个或更多的模型揭示了与有能力的人相比于残疾人、与欧洲裔美国人相对于非裔美国人、女性相对于男性、美国口音者相对于非美国口音者以及年轻人相对老年人的正价愉快关联。除了建立包含这些偏差的预训练语音模型之外,我们还表明它们可以对现实世界产生影响。我们将预训练模型中发现的偏差与适应语音情绪识别 SER 任务的下游模型中的偏差进行比较,发现在执行的 69 项 96 项测试中的 66 项中,与 SpEAT 所示的正效价更相关的组也倾向于被下游模型预测为具有更高的化合价。我们的工作提供的证据表明,与基于文本和图像的模型一样,基于预先训练的语音的模型经常学习类似人类的偏见。

MUST: A Multilingual Student-Teacher Learning approach for low-resource speech recognition
Authors Muhammad Umar Farooq, Rehan Ahmad, Thomas Hain
学生教师学习或知识蒸馏 KD 先前已被用于解决语音识别 ASR 系统训练的数据稀缺问题。然而,KD 训练的一个限制是学生模型类必须是教师模型类的正确或不正确的子集。如果字符集不相同,它甚至可以防止从声音上相似的语言中进行蒸馏。在这项工作中,通过提出一种利用后验映射方法的多语言学生教师必须学习来解决上述限制。使用预先训练的映射模型将后验从教师语言映射到学生语言 ASR。这些映射的后验被用作 KD 学习的软标签。实验了各种教师集成方案来训练低资源语言的 ASR 模型。

Audio-Visual Instance Segmentation
Authors Ruohao Guo, Yaru Chen, Yanyu Qi, Wenzhen Yue, Dantong Niu, Xianghua Ying
在本文中,我们提出了一种新的多模态任务,即视听实例分割AVIS,其目标是同时识别、分割和跟踪可听视频中的各个发声对象实例。据我们所知,这是实例分割首次扩展到视听领域。为了更好地促进这项研究,我们构建了第一个视听实例分割基准 AVISeg 。具体来说,AVISeg 由来自 YouTube 和公共视听数据集的 1,258 个平均时长为 62.6 秒的视频组成,其中 117 个视频使用基于 Segment Anything Model SAM 的交互式半自动标记工具进行了注释。此外,我们还为 AVIS 任务提供了一个简单的基线模型。我们的新模型向 Mask2Former 引入了音频分支和跨模态融合模块来定位所有发声对象。最后,我们在 AVISeg 上使用两个骨干网评估所提出的方法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/296313.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

神经网络框架的基本设计

一、神经网络框架设计的基本流程 确定网络结构、激活函数、损失函数、优化算法,模型的训练与验证,模型的评估和优化,模型的部署。 二、网络结构与激活函数 1、网络架构 这里我们使用的是多层感知机模型MLP(multilayer prrceptron)&#x…

代码随想录 1143. 最长公共子序列

题目 给定两个字符串 text1 和 text2,返回这两个字符串的最长 公共子序列 的长度。如果不存在 公共子序列 ,返回 0 。 一个字符串的 子序列 是指这样一个新的字符串:它是由原字符串在不改变字符的相对顺序的情况下删除某些字符(也…

MongoDB 启动时:服务名无效

1.问题场景 电脑睡眠后,再连接服务发现无法连接,启动服务报:服务名无效。 2.打开服务管理: 发现服务中没有MongoDB的服务 3.解决 (1)先找打MongoDB安装路径,把data文件夹下所有文件删除 &a…

Vue中使用Element UI的Table组件实现嵌套表格(最简单示例)

以下是一个简单的示例代码&#xff0c;演示如何在Vue中使用Element UI的Table组件实现嵌套表格&#xff1a; html <template><div><el-table :data"tableData" style"width: 100%"><el-table-column prop"name" label&quo…

Centos服务器安装Certbot以webroot的方式定时申请SSL免费证书

最近发现原先免费一年的SSL证书都改为3个月的有效期了&#xff0c;原先一年操作一次还能接受&#xff0c;现在3个月就要手动续期整的太慢烦了&#xff0c;还是让程序自动给处理下吧&#xff0c; 安装 Certbot yum install epel-release -y yum install certbot -yEPEL是由 Fe…

云计算历年题整理

第一大题 第一大题计算 给出计算连接到EC2节点的EBS的高可用性(HA)的数学公式&#xff0c;如场景中所述&#xff1b;计算EC2节点上的EBS的高可用性(HA)&#xff1b;场景中80%的AWS EC2节点用于并行处理&#xff0c;总共有100个虚拟中央处理单元(vCPUs)用于处理数据&#xff0…

蟹目标检测数据集VOC格式400张

蟹&#xff0c;一种独特的海洋生物&#xff0c;以其强壮的身体和独特的生活习性而闻名。 蟹的身体宽厚&#xff0c;有一对锐利的大钳子&#xff0c;这使得它们在寻找食物和保护自己时非常有力。蟹的外观颜色多样&#xff0c;有绿色、蓝色、棕色和红色等&#xff0c;这使得它们在…

法一(auto-py-to-exe):Pyinstaller将yolov5的detect.py封装成detect.exe

pip install pyinstaller # 安装最新版本的pyinstaller指令# 在dist目录下只生成一个较大xxx.exe文件&#xff0c;所有依赖库全打包到exe中&#xff0c;打包后的exe可单独使用 pyinstaller -F xxx.py # 在dist目录下生成较小的exe文件&#xff0c;其他依赖库全都在dist文件夹下…

[C#]利用opencvsharp实现深度学习caffe模型人脸检测

【官方框架地址】 https://github.com/opencv/opencv/blob/master/samples/dnn/face_detector/deploy.prototxt 采用的是官方caffe模型res10_300x300_ssd_iter_140000.caffemodel进行人脸检测 【算法原理】 使用caffe-ssd目标检测框架训练的caffe模型进行深度学习模型检测 …

【ARMv8架构系统安装PySide2】

ARMv8架构系统安装PySide2 Step1. 下载Qt资源包Step2. 配置和安装Qt5Step3. 检查Qt-5.15.2安装情况Step4. 安装PySide2所需的依赖库Step5. 下载和配置PySide2Step6. 检验PySide2是否安装成功 Step1. 下载Qt资源包 if you need the whole Qt5 (~900MB): wget http://master.qt…

全新盲盒商城源码 /潮乎盲盒源码 /搭建教程/后端采用Laravel框架开发

源码介绍&#xff1a; 全新盲盒商城源码、潮乎盲盒源码&#xff0c;它附有搭建教程&#xff0c;后端采用Laravel框架开发。 采用后端Laravel框架进行开发&#xff0c;前端开发框架则使用了uniappvue。在环境配置方面&#xff0c;我们建议使用php7.4 mysql5.6 nginx1.22 re…

用友U8 Cloud smartweb2.RPC.d XML外部实体注入漏洞

产品介绍 用友U8cloud是用友推出的新一代云ERP&#xff0c;主要聚焦成长型、创新型、集团型企业&#xff0c;提供企业级云ERP整体解决方案。它包含ERP的各项应用&#xff0c;包括iUAP、财务会计、iUFO cloud、供应链与质量管理、人力资源、生产制造、管理会计、资产管理&#…

MATLAB中xcorr函数用法

目录 语法 说明 示例 两个向量的互相关 向量的自相关 归一化的互相关 xcorr函数的功能是返回互相关关系。 语法 r xcorr(x,y) r xcorr(x) r xcorr(___,maxlag) r xcorr(___,scaleopt) [r,lags] xcorr(___) 说明 r xcorr(x,y) 返回两个离散时间序列的互相关。互相…

基于R语言(SEM)结构方程模型教程

详情点击链接&#xff1a;基于R语言&#xff08;SEM&#xff09;结构方程模型教程 01、R/Rstudio (2)R语言基本操作&#xff0c;包括向量、矩阵、数据框及数据列表等生成和数据提取等 (3)R语言数据文件读取、整理&#xff08;清洗&#xff09;、结果存储等&#xff08;含tidve…

助力实体店数字化升级,VR智慧门店打造线上逛店体验

近年来&#xff0c;传统实体店业绩增长过于缓慢&#xff0c;实体门店的销售疲态十分明显&#xff0c;甚至于部分城市已经出现大量线下实体店开始关门的现象&#xff0c;因此顺应实体零售数字化升级趋势已经刻不容缓。越来越多的实体门店开始意识到这个问题&#xff0c;并逐步开…

window服务器thinkphp队列监听服务

经常使用linux的同学们应该对使用宝塔来做队列监听一定非常熟悉&#xff0c;但对于windows系统下&#xff0c;如何去做队列的监听&#xff1f;是一个很麻烦的事情。 本文将通过windows系统的服务来实现队列的监听。 对于thinkphp6 queue如何使用&#xff0c;不再赘述。其它系…

算法29:不同路径问题(力扣62和63题)--针对算法28进行扩展

题目&#xff1a;力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记为 “Start” &#xff09;。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角&#xff0…

L1-085:试试手气

我们知道一个骰子有 6 个面&#xff0c;分别刻了 1 到 6 个点。下面给你 6 个骰子的初始状态&#xff0c;即它们朝上一面的点数&#xff0c;让你一把抓起摇出另一套结果。假设你摇骰子的手段特别精妙&#xff0c;每次摇出的结果都满足以下两个条件&#xff1a; 1、每个骰子摇出…

设计模式② :交给子类

文章目录 一、前言二、Template Method 模式1. 介绍2. 应用3. 总结 三、Factory Method 模式1. 介绍2. 应用3. 总结 参考内容 一、前言 有时候不想动脑子&#xff0c;就懒得看源码又不像浪费时间所以会看看书&#xff0c;但是又记不住&#xff0c;所以决定开始写"抄书&qu…

C#之反编译之路(一)

本文将介绍微软反编译神器dnSpy的使用方法 c#反编译之路(一) dnSpy.exe区分64位和32位,所以32位的程序,就用32位的反编译工具打开,64位的程序,就用64位的反编译工具打开(个人觉得32位的程序偏多,如果不知道是32位还是64位,就先用32位的打开试试) 目前只接触到wpf和winform的桌…
最新文章