【AI视野·今日Sound 声学论文速览 第三十五期】Fri, 27 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Fri, 27 Oct 2023
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Controllable Generation of Artificial Speaker Embeddings through Discovery of Principal Directions
Authors Florian Lux, Pascal Tilli, Sarina Meyer, Ngoc Thang Vu
由于可用的带有适当标签的数据很少,因此在具有直观和细粒度控制的语音合成系统中定制语音和说话风格具有挑战性。此外,编辑现有人类的声音也会带来伦理问题。在本文中,我们提出了一种方法来生成无法链接到真人的人工说话者嵌入,同时提供对嵌入的语音和说话风格的直观和细粒度的控制,而不需要任何说话者或风格的标签。

Learning Repeatable Speech Embeddings Using An Intra-class Correlation Regularizer
Authors Jianwei Zhang, Suren Jayasuriya, Visar Berisha
针对特定机器学习任务的良好监督嵌入仅对感兴趣标签的变化敏感,并且对其他混杂因素不变。我们利用测量理论中的可重复性概念来描述这一属性,并建议使用类内相关系数 ICC 来评估嵌入的可重复性。然后,我们提出了一种新颖的正则化器,即 ICC 正则化器,作为对比损失的补充组件,以指导深度神经网络产生具有更高可重复性的嵌入。我们使用模拟数据来解释为什么 ICC 正则化器在最小化类内方差方面比单独的对比损失效果更好。我们实现了 ICC 正则化器,并将其应用于三个语音任务:说话人验证、语音风格转换以及检测发音困难的临床应用。

Towards Matching Phones and Speech Representations
Authors Gene Ping Yang, Hao Tang
从电话实例中学习电话类型一直是一个长期存在的问题,但仍处于开放状态。在这项工作中,我们在自监督学习的背景下重新审视这个问题,并将其视为将聚类质心与音素嵌入相匹配的问题。我们研究了实现匹配的两个关键属性,即自监督表示的聚类质心是否减少了电话实例的可变性并尊重电话之间的关系。然后,我们使用匹配结果来生成伪标签,并引入新的损失函数来改进自监督表示。我们的实验表明,匹配结果捕获了电话之间的关系。

Content-based Controls For Music Large Language Modeling
Authors Liwei Lin, Gus Xia, Junyan Jiang, Yixiao Zhang
近年来,音乐音频领域的大规模语言模型迅速发展。此类模型能够端到端生成更高质量的音乐,有些模型允许使用文本描述进行条件生成。然而,文本控件对音乐的控制能力本质上是有限的,因为它们只能通过歌手、乐器等元数据或流派、情感等高级表示来间接描述音乐。我们的目标是进一步为模型配备对固有音乐语言(例如音高、和弦和鼓声)的直接和基于内容的控制。为此,我们贡献了 Coco Mulla,一种用于音乐大语言建模的基于内容的控制方法。它使用为基于 Transformer 的音频模型量身定制的参数高效微调 PEFT 方法。实验表明,我们的方法通过低资源半监督学习实现了高质量的音乐生成,与原始模型相比,调整参数少于 4 个,并且在少于 300 首歌曲的小数据集上进行训练。此外,我们的方法可以实现基于内容的有效控制,并且我们通过和弦和节奏(音乐音频的两个最显着的特征)来说明控制能力。此外,我们还表明,通过结合基于内容的控件和文本描述,我们的系统实现了灵活的音乐变化生成和风格转换。

Single channel speech enhancement by colored spectrograms
Authors Sania Gul, Muhammad Salman Khan, Muhammad Fazeel
语音增强涉及从目标语音中去除不需要的背景声音以提高其质量和清晰度所需的过程。在本文中,提出了一种使用彩色频谱图的单通道语音增强的新方法。我们建议使用改编自 pix2pix 生成对抗网络 GAN 的深度神经网络 DNN 架构,并通过彩色语音频谱图对其进行训练以对其进行去噪。去噪后,使用浅回归神经网络将频谱图的颜色转换为短时傅里叶变换 STFT 的幅度。这些估计的 STFT 幅度随后与噪声相位相结合以获得增强的语音。结果表明,与未处理的噪声数据相比,语音质量 PESQ 的感知评估提高了近 0.84 分,短期客观清晰度 STOI 提高了 1 分。未处理信号的质量和清晰度增益几乎等于用于与所提出的模型进行比较的基线方法所获得的增益,但计算成本大大降低。与在灰度频谱图上训练生成最高 PESQ 分数的类似基线模型相比,所提出的解决方案提供了比较 PESQ 分数,计算成本降低了近 10 倍,而与相比,它在 STOI 中仅提供 1 赤字,计算成本降低了 28 倍。

Real-time Neonatal Chest Sound Separation using Deep Learning
Authors Yang Yi Poh, Ethan Grooby, Kenneth Tan, Lindsay Zhou, Arrabella King, Ashwin Ramanathan, Atul Malhotra, Mehrtash Harandi, Faezeh Marzbanrad
新生儿听诊是一种简单、无创的心血管和呼吸系统疾病诊断方法。这种诊断通常需要在听诊过程中捕获高质量的心音和肺音。然而,在大多数情况下,由于胸音混合了心音、肺音和噪声,因此获得如此高质量的声音并非易事。因此,需要额外的预处理将胸音分离为心音和肺音。本文提出了一种新颖的深度学习方法,将此类胸音分离为心音和肺音。受 Conv TasNet 模型的启发,所提出的模型具有编码器、解码器和掩模生成器。编码器由一维卷积模型组成,解码器由转置一维卷积组成。掩模生成器是使用堆叠的一维卷积和变换器构建的。所提出的模型在人工数据集中的客观失真测量方面优于先前的方法 2.01 dB 至 5.06 dB,以及计算时间,至少提高了 17 倍。

Multi-Speaker Expressive Speech Synthesis via Semi-supervised Contrastive Learning
Authors Xinfa Zhu, Yuke Li, Yi Lei, Ning Jiang, Guoqing Zhao, Lei Xie
本文旨在构建一个针对多说话人的富有表现力的 TTS 系统,合成具有多种风格和情感的目标说话人的语音。为此,我们提出了一种新颖的基于对比学习的 TTS 方法,用于在说话者之间传递风格和情感。具体来说,我们在话语和类别(例如情感快乐或风格诗人或说话者 A 级别)上构建正负样本对,并利用对比学习更好地从语音中提取解开的风格、情感和说话者表征。此外,我们在所提出的方法中引入了半监督训练策略,以有效地利用多域数据,包括风格标记数据、情感标记数据和未标记数据。我们将学习到的表示集成到改进的 VITS 模型中,使其能够为目标说话者合成具有不同风格和情感的表达性语音。

Improved Panning on Non-Equidistant Loudspeakers with Direct Sound Level Compensation
Authors Jan Hendrik Hanschke, Daniel Arteaga, Giulio Cengarle, Joshua Lando, Mark R. P. Thomas, Alan Seefeldt
创建幻象声源的扬声器渲染技术通常采用等距扬声器布局。典型的家庭设置可能无法满足此条件,因为扬声器偏离规范位置,因此需要相应的校准。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/154809.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

chatGPT API中参数temperature的含义是什么

在 ChatGPT API 中,temperature 参数用于控制回答的确定性和创造性。temperature 的值范围通常是从 0 到 1。这个参数影响模型生成回答时的随机性: 低温度值(如 0 或接近 0):会导致模型生成更确定、更一致、更少出乎意…

微服务实战系列之Sentinel

前言 微服务架构(Microservice Architecture)是一种架构概念,旨在通过将功能分解到各个离散的服务中以实现对解决方案的解耦。 近年来,微服务已赫然崛起于IT界,越来越多的程序员不得不向之靠拢。也正因为各行各业都愿为…

ZOC8 for Mac:最佳终端仿真器,助力您的工作效率飞升!

在现代的工作环境中,终端仿真器扮演着不可或缺的角色。无论是开发人员、系统管理员还是网络工程师,都需要一个功能强大、易于使用的终端仿真器来处理各种任务。而ZOC8 for Mac正是为这些专业人士而打造的最佳选择。 作为一款全功能的终端仿真软件&#…

Apache SCXML2 RCE漏洞

文章目录 前言源码利用上传恶意xml文件构造payload搭建Apache服务器 远程RCE 前言 在做 [HDCTF 2023]BabyJxVx 遇到的知识点,但是没公网的服务器只能作罢,写下这篇文章记录 源码利用 public String Flag(RequestParam(required true) String filenam…

微信如何设置自动保存图片和视频

8-6 在日常的工作中,如果你需要经常或者每天都要对同事们发来的大量图片和视频进行保存的,这种工作需要花费很多时间,如果你想节省这些手工时间的话,也许本文适合你,首先要明白的是,微信本身是没有任何相关…

备战旺季,赛盈分销解析2023年美国人爱买的年终爆款!

今年10月份美国人增加了自己在线上渠道的支出,Adobe Analytics的调查报告显示,美国消费者当月的线上支出达到了768亿美元,同比增长5.9%。 数据还表明,1-10月份美国人的线上购物相比去年增长了4.3%,整体消费达到7590亿…

二十、泛型(9)

本章概要 对缺乏潜在类型机制的补偿 反射将一个方法应用于序列 Java 8 中的辅助潜在类型 使用 Suppliers 类的通用方法 总结:类型转换真的如此之糟吗? 对缺乏潜在类型机制的补偿 尽管 Java 不直接支持潜在类型机制,但是这并不意味着泛型代…

笔记53:torch.nn.rnn() 函数详解

参数解释: (1)input_size():即输入信息 Xt 的每个序列的独热编码向量的长度,即 len(vocab) (2)hidden_size():即隐变量 h 的维度(维度是多少,就代表用几个数…

北京君正客户应用案例:掌静脉3D人脸猫眼视屏智能锁

凯迪仕在今年4月发布了智能锁旗舰新品K70 Pro Max掌静脉3D人脸猫眼视屏智能锁,随即这款新品也成了行业热议的焦点。凯迪仕每次新品都力求突破精益求精,不仅追求科技感、高级感与品质感,而且赋予科技温度,带来人文化的关怀。K70 Pr…

FPGA——IP核 基础操作

FPGA——IP核 基础操作 IP核例化模块时钟IP核RAM IP核 IP核例化模块 找到模版 加入代码中 时钟IP核 配置模式功能 配置输入时钟 输出配置 RAM IP核

物联网AI MicroPython学习之语法 I2C总线

学物联网,来万物简单IoT物联网!! I2C 介绍 模块功能: I2C Master设备驱动 接口说明 I2C - 构建硬件I2C对象 函数原型:I2C(id, scl, sda, freq)参数说明: 参数类型必选参数?说明idintYI2C外设&#xff…

关于新能源汽车的英语翻译

近年来,随着全球对环保和可持续发展的重视,新能源汽车已经成为汽车产业的重要发展方向。各国政府和企业都在加大投入,推动新能源汽车的技术研发和产业化发展,进而促进了新能源汽车翻译的需求不断提升 。那么,关于新能源…

免费的快速手机文件解压APP,快冲

各位小伙伴们大家好,今天我要介绍一款手机上必备的神奇工具!你有没有经常遇到需要解压文件情况呢?还在为不知道用哪个软件而烦恼吗?别担心,我给你带来了解决方案 ,就是这一款免费的解压精灵。 解压精灵是一…

-pthread和-lpthread

我试图在我的Ubuntu机器上设置GTest环境.但在使GTest获取库时,我收到以下错误... ../obj/gtest.a(gtest-all.o): In function testing::internal::ThreadLocal<std::vector<testing::internal::TraceInfo, std::allocator<testing::internal::TraceInfo> > >…

SQL优化

一、巧用limit分页查询&#xff08;id必须有序&#xff09; 二、like百分号向右 说明&#xff1a;全模糊查询或者左边出现%的模糊查询会导致索引失效&#xff0c;应该尽量从查询方式或表结构设计上避免&#xff0c;若无法避免且数据量庞大的情况下&#xff0c;一定要使用elasti…

openGauss学习笔记-123 openGauss 数据库管理-设置账本数据库-账本数据库概述

文章目录 openGauss学习笔记-123 openGauss 数据库管理-设置账本数据库-账本数据库概述123.1 背景信息123.2 操作步骤 openGauss学习笔记-123 openGauss 数据库管理-设置账本数据库-账本数据库概述 123.1 背景信息 账本数据库融合了区块链思想&#xff0c;将用户操作记录至两…

js的File对象,Blob和file相互转换

示例 <!DOCTYPE html> <html><head><meta charset"utf-8" /><meta name"viewport" content"widthdevice-width, initial-scale1" /><title>js的File对象&#xff0c;Blob和file相互转换</title><…

EnlightenGAN 开源代码运行问题汇总

参考链接&#xff1a; EnlightenGAN 开源代码运行EnlightenGAN的运行环境搭建和训练自己的数据 源码下载和环境配置比较简单&#xff0c;本文测试环境&#xff1a;Win10 RTX3060、cuda 11.3、python 3.8 torch 1.12.0 numpy 1.20.1 如果想修改在项目里创建test_daatset文…

【OS】操作系统课程笔记 第八章 虚拟存储管理

8.1 虚拟存储器 8.1.1 虚拟存储器的定义 1. 虚存定义 通过请求调入功能和置换功能&#xff0c;能从逻辑上对内存容量加以扩充的一种存储器系统。 2. 优势和应用 用户地址空间可以大于物理内存空间&#xff0c;使得内存可以保存数量较多的进程&#xff0c;提高了并发性&…