【AI视野·今日Sound 声学论文速览 第三十四期】Thu, 26 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Thu, 26 Oct 2023
Totally 9 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Dynamic Processing Neural Network Architecture For Hearing Loss Compensation
Authors Szymon Drgas, Lars Bramsl w, Archontis Politis, Gaurav Naithani, Tuomas Virtanen
本文提出了用于补偿感音神经性听力损失的神经网络。听力损失补偿任务的目的是在由听力障碍者进一步处理后,对语音信号进行转换以提高语音清晰度,该任务通过听力损失模型进行建模。我们提出了一种称为动态处理网络的可解释模型,其结构类似于带状动态压缩器。该网络是可微分的,因此允许学习其参数以最大化语音清晰度。还测试了基于卷积层的更通用模型。使用谱时客观指数 STOI 以及听力阈值噪声和助听器语音清晰度 HASPI 指标来评估测试架构的性能。与流行的压缩增益处方规则 Camfit 相比,动态处理网络对 STOI 和 HASPI 有了显着的改进。足够大的卷积网络可以超越可解释模型,但代价是更大的计算负载。

AccoMontage-3: Full-Band Accompaniment Arrangement via Sequential Style Transfer and Multi-Track Function Prior
Authors Jingwei Zhao, Gus Xia, Ye Wang
我们提出了 AccoMontage 3,这是一种符号音乐自动化系统,能够根据带有和弦的主旋律(即主奏表)的输入生成多轨、全乐队伴奏。该系统包含三个模块化组件,每个组件都模拟了整个乐队组合的重要方面。第一个组件是钢琴编曲器,它通过使用潜在和弦纹理解缠和纹理捐赠者的启发式检索将纹理风格转移到和弦,为主奏板生成钢琴伴奏。第二个组件根据各个轨道功能编码的编曲风格将钢琴伴奏乐谱编排成全乐队编曲。第三个组件连接前两个组件,是一个先验模型,描述整首音乐的管弦乐风格的全局结构。从头到尾,系统学习以自我监督的方式生成全乐队伴奏,在复调作曲纹理和编排两个层面上应用风格转移。

Towards Streaming Speech-to-Avatar Synthesis
Authors Tejas S. Prabhune, Peter Wu, Bohan Yu, Gopala K. Anumanchipalli
将语音流传输到虚拟人物合成中,可以根据音频数据为虚拟角色创建实时动画。准确的语音化身表征对于语言学、语音学和音系学中的声音可视化、辅助第二语言习得的视觉反馈以及瘫痪患者的虚拟体现非常重要。之前的作品强调了深度关节反转的能力,可以使用电磁关节描记术 EMA 功能执行高质量的头像动画。然而,这些模型侧重于通过录音进行离线头像合成,而不是实时音频,而实时音频是实时头像可视化或体现所必需的。为了解决这个问题,我们提出了一种使用发音反转来从实时音频流式传输高质量面部和内嘴头像动画的方法。我们的方法实现了每 0.1 秒音频的平均流延迟为 130 毫秒,与真实发音的相关性为 0.792。

Complex Image Generation SwinTransformer Network for Audio Denoising
Authors Youshan Zhang, Jialu Li
在现实应用中实现高性能音频降噪仍然是一项具有挑战性的任务。现有的时频方法常常忽略生成的频域图像的质量。本文将音频去噪问题转化为图像生成任务。我们首先开发一个复杂图像生成 SwinTransformer 网络,以从复杂傅里叶域捕获更多信息。然后,我们施加结构相似性和详细的损失函数来生成高质量图像并开发 SDR 损失以最小化去噪音频和干净音频之间的差异。

ArTST: Arabic Text and Speech Transformer
Authors Hawau Olamide Toyin, Amirbek Djanibekov, Ajinkya Kulkarni, Hanan Aldarmaki
我们推出了 ArTST,一种经过预训练的阿拉伯语文本和语音转换器,用于支持阿拉伯语的开源语音技术。该模型架构遵循最近发布的英语统一模态框架 SpeechT5,重点关注现代标准阿拉伯语 MSA,并计划在未来版本中将该模型扩展到方言和代码交换阿拉伯语。我们在 MSA 语音和文本数据上从头开始对模型进行预训练,并针对以下任务对其进行微调:自动语音识别 ASR、文本到语音合成 TTS 和口语方言识别。在我们将 ArTST 与 SpeechT5 进行比较的实验中,以及与之前报告的这些任务的结果相比,ArTST 在所有三项任务中的表现均达到或超过了当前最先进的水平。此外,我们发现我们的预训练有利于泛化,这在低资源 TTS 任务中尤其明显。

Back Transcription as a Method for Evaluating Robustness of Natural Language Understanding Models to Speech Recognition Errors
Authors Marek Kubis, Pawe Sk rzewski, Marcin Sowa ski, Tomasz Zi tkiewicz
在口语对话系统中,NLU 模型之前是语音识别系统,这可能会降低自然语言理解的性能。本文提出了一种研究语音识别错误对自然语言理解模型性能影响的方法。所提出的方法将反转录过程与细粒度技术相结合,用于对影响 NLU 模型性能的错误进行分类。该方法依赖于使用合成语音进行 NLU 评估。

A Novel Approach for Object Based Audio Broadcasting
Authors Mohammad Reza Hasanabadi
基于对象的音频 OBA 提供了一种新型音频体验,为观众提供个性化和定制他们的聆听体验,并让他们选择收听什么内容以及如何收听音频内容。 OBA可以应用于不同的平台,例如广播、流媒体和电影声音。本文提出了一种在制作端创建基于对象的音频的新颖方法。此处的方法逐个示例地介绍基于对象的音频 SSOBA 嵌入。 SSOBA 放置音频对象样本的方式使观众可以根据自己的兴趣和需求轻松个性化他们选择的音频源。 SSOBA 是一项额外服务,而不是替代服务,因此它也兼容传统音频播放器。 SSOBA 的最大优点是它不需要广播链中任何特殊的额外硬件,因此很容易实现并为传统播放器和解码器配备增强的功能。输入音频对象、输出通道数和采样率是影响 SSOBA 性能并指定其无损或有损的三个重要因素。 SSOBA在解码器侧采用插值来补偿被消除的样本。进行主观和客观实验来评估每一步的输出结果。编码步骤后进行的 MUSHRA 主观实验表明,SSOBA 具有多达五个对象的良好质量性能。解码和插值后进行的信噪比测量和客观实验表明音频对象的恢复和分离取得了显着的成功。

Generative Pre-training for Speech with Flow Matching
Authors Alexander H. Liu, Matt Le, Apoorv Vyas, Bowen Shi, Andros Tjandra, Wei Ning Hsu
近年来,生成模型因其在需要估计和采样数据分布以生成高保真合成数据的任务中取得的显着成功而受到越来越多的关注。在语音领域,文本到语音合成和神经声码器是生成模型大放异彩的好例子。虽然生成模型已应用于语音的不同应用,但不存在直接对语音进行建模的通用生成模型。在这项工作中,我们向这个方向迈出了一步,展示了单个预训练的生成模型可以适应不同的下游任务,并具有强大的性能。具体来说,我们使用流匹配和屏蔽条件,在 6 万小时的未转录语音上预训练了一个名为 SpeechFlow 的生成模型。实验结果表明,预训练的生成模型可以使用特定于任务的数据进行微调,以匹配或超越现有的语音增强、分离和合成专家模型。

IA Para el Mantenimiento Predictivo en Canteras: Modelado
Authors Fernando Marcos, Rodrigo Tamaki, Mateo C mara, Virginia Yag e, Jos Luis Blanco
对原材料的依赖,特别是在采矿业,是当今经济的一个关键部分。骨料至关重要,是仅次于水的第二大使用原材料。该行业的数字化转型是优化运营的关键。然而,由于该行业、机械和环境条件的特​​殊性,监督和维护的预测和纠正是该行业很少探讨的挑战。尽管在其他场景中使用声学和接触传感器进行监控取得了成功,但所有这些都是如此。我们提出了一种无监督学习方案,该方案在一组声音记录上训练变分自动编码器模型。这是在加工厂运营期间收集的第一个此类数据集,包含来自加工线不同点的信息。我们的结果证明了该模型能够在潜在空间中重建和表示记录的声音、操作条件以及不同设备之间的差异。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/153961.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode(21)反转字符串中的单词【数组/字符串】【中等】

目录 1.题目2.答案3.提交结果截图 链接: 151. 反转字符串中的单词 1.题目 给你一个字符串 s ,请你反转字符串中 单词 的顺序。 单词 是由非空格字符组成的字符串。s 中使用至少一个空格将字符串中的 单词 分隔开。 返回 单词 顺序颠倒且 单词 之间用单…

Java实现俄罗斯方块游戏

俄罗斯方块游戏本身的逻辑: 俄罗斯方块游戏的逻辑是比较简单的。它就类似于堆砌房子一样,各种各样的方地形状是不同的。但是,俄罗斯方块游戏的界面被等均的分为若干行和若干列,因此方块的本质就是占用了多少个单元。 首先来考虑…

单脉冲测角-和差比幅法

和差比幅法单脉冲测角 单脉冲测角的类型阵列接收模型和差波束构造方法和差比幅测角仿真 单脉冲测角的类型 传统的单脉冲测向方法主要有3种,分别是半阵法、加权法和和差比幅法。其实这3种方法都需要形成和波束和差波束,只是波束形成的方法不同&#xff0…

多标签页文件管理器 - Win系统

多标签页文件管理器 - Win系统 前言My Files-X Free360文件夹升级Win11 前言 Win10系统自带的文件管理器不支持多标签页功能,本文推荐几款多标签页文件管理器,可以在一个文件管理器窗口中打开多个标签页。 My Files-X Free 此文件管理器支持多标签页&…

【Qt之QWizard问题】setPixmap()设置logo、background、watermark无效不显示解决方案

问题原因: 使用QWizard或者QWizardPage设置像素图,结果设置完不显示效果。 设置示例: setPixmap(QWizard::WatermarkPixmap, QPixmap("xxx/xxx/xxx.png"));setPixmap(QWizard::BackgroundPixmap, QPixmap("xxx/xxx/xxx.png&…

redis未授权访问漏洞利用

当redis服务(6379)端口对外开放且未作密码认证时,任意用户可未授权访问redis服务并操作获取其数据。 攻击机:10.1.1.100 kali 目标靶机:10.1.1.200 一、探测redis的未授权访问 首先在攻击机上使用nmap对目标机进行扫描,探测开放的…

番外 2 : LoadRunner 的安装以及配置

LoadRunner 的安装以及配置教程 一 . 配置 IE 浏览器二 . 安装 LoadRunner 工具三 . 修改默认浏览器的配置四 . 设置 LoadRunner 能够获取本地资源 Hello , 大家好 , 又给大家带来新的专栏喽 ~ 这个专栏是专门为零基础小白从 0 到 1 了解软件测试基础理论设计的 , 虽然还不足以…

AW2013芯片讲解

文章目录 前言一、AW2013芯片介绍二、AW2013从机地址三、AW2013读写时序AW2013写时序AW2013读时序 四、AW2013的INT引脚五、LED作用和配置描述LED控制PWM控制模式简短编程模式 六、AW2013寄存器讲解总结 前言 本篇文章将带大家学习AW2013芯片的使用。 一、AW2013芯片介绍 AW…

CSS盒子模型

在网页设计的时候,每个元素都是一个矩形的块,类似于盒子的形状,所以就有了盒子模型的概念。 盒子模型中的主要参数: 内容、内边距(上内边距、下内边距、左内边距、右内边距)、边框(上边框、下…

echart柱状图y坐标轴反转问题

先看下面视屏 REVEISEdEMO 很明显,随着窗口高度的变化(这里变高),y方向坐标轴有个反转的过程 解决方法 给柱状图的配置项添加如下代码

4. 【自动驾驶与机器人中的SLAM技术】点云中的拟合问题和K近邻

目录 1.在三维体素中定义 NEARBY14,实现 14 格最近邻的查找。2.推导arg max||Ad||22的解为ATA的最大特征向量或者奇异向量。3. 将本节的最近邻算法与一些常见的近似最近邻算法进行对比,比如nanoflann,给出精度指标和时间效率指标。4. 也欢迎大…

【C++】【Opencv】cv::GaussianBlur、cv::filter2D()函数详解和示例

本文通过函数详解和运行示例对cv::GaussianBlur和cv::filter2D()两个函数进行解读,最后综合了两个函数的关系和区别,以帮助大家理解和使用。 目录 cv::GaussianBlur()函数详解运行示例 filter2D()函数详解运行示例 总结两个函数联…

python实现梯度距离平方反比法GIDS

1 梯度距离平方反比法 梯度距离平方反比法(gradient plus inverse distance squared (GIDS))由Nalder和Wein于1988年提出,是一种考虑了气象要素随经纬度和海拔高度变化的反距离权重法,其空间插值计算公式如下: 式中: z z z 表示代…

自动化测试,你一定要知道的知识

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

Mybatis的Mapper接口传递多个参数的时候必须要加@Param注解吗?

答案是&#xff1a;不一定&#xff0c;取决于mybatis的版本、jdk的版本和javac的编译选项。 测试代码 Maven依赖&#xff1a; <dependency><groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis-spring-boot-starter</artifactId>…

手把手教你搭建属于自己的快递小程序

在数字化时代&#xff0c;小程序已经成为各行各业连接用户、提供服务、创造价值的重要工具。其中&#xff0c;快递寄件小程序因其实用性和广泛的需求&#xff0c;成为很多企业和开发者关注的焦点。本文将详细介绍如何快速创建快递寄件小程序&#xff0c;以及如何利用它实现盈利…

UI设计是什么意思?一文给你讲清楚

随着互联网的快速发展&#xff0c;用户界面UI设计在中国也逐渐发展&#xff0c;用户界面UI设计的目的不仅是让用户&#xff0c;有视觉享受&#xff0c;而且解决用户如何与互联网设备交互&#xff0c;因此&#xff0c;用户界面UI设计是通过用户使用习惯、操作逻辑、界面交互和视…

非常经典的一道SQL报错注入题目[极客大挑战 2019]HardSQL 1(两种解法!)

题目环境&#xff1a; 没错&#xff0c;又是我&#xff0c;这群该死的黑客竟然如此厉害&#xff0c;所以我回去爆肝SQL注入&#xff0c;这次&#xff0c;再也没有人能拿到我的flag了 做了好多这个作者出的题了&#xff0c;看来又要上强度了 判断注入类型 username&#xff1a;a…

【下载器】NDM和IDM介绍(含安装包和教程)

1 IDM&#xff08;增强型下载管理器&#xff09; 1.1 IDM介绍 官网&#xff1a;Internet Download Manager (IDM) 优缺点&#xff1a; 高速下载&#xff1a; IDM通过多线程下载和分段下载技术&#xff0c;能够显著提高下载速度&#xff0c;从而节省用户的时间。暂停和恢复功…

线程的面试八股

Callable接口 Callable是一个interface,相当于给线程封装了一个返回值,方便程序猿借助多线程的方式计算结果. 代码示例: 使用 Callable 版本,创建线程计算 1 2 3 ... 1000, 1. 创建一个匿名内部类, 实现 Callable 接口. Callable 带有泛型参数. 泛型参数表示返回值的类型…
最新文章