【AI视野·今日Sound 声学论文速览 第四十五期】Wed, 10 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Wed, 10 Jan 2024
Totally 12 papers
👉上期速览✈更多精彩请移步主页

Daily Sound Papers

Masked Audio Generation using a Single Non-Autoregressive Transformer
Authors Alon Ziv, Itai Gat, Gael Le Lan, Tal Remez, Felix Kreuk, Alexandre D fossez, Jade Copet, Gabriel Synnaeve, Yossi Adi
我们引入了 MAGNeT,一种直接在多个音频标记流上运行的掩码生成序列建模方法。与之前的工作不同,MAGNeT 由单级非自回归变压器组成。在训练过程中,我们预测从掩码调度程序获得的掩码令牌的范围,而在推理过程中,我们使用几个解码步骤逐渐构建输出序列。为了进一步提高生成音频的质量,我们引入了一种新颖的重新评分方法,其中我们利用外部预训练模型对 MAGNeT 的预测进行重新评分和排名,然后将其用于后续的解码步骤。最后,我们探索了 MAGNeT 的混合版本,其中我们融合自回归和非自回归模型,以自回归方式生成前几秒,同时并行解码序列的其余部分。我们展示了 MAGNeT 在文本到音乐和文本到音频生成任务中的效率,并考虑了客观指标和人类研究,进行了广泛的实证评估。所提出的方法与评估的基线相当,同时比自回归基线快 7 倍。通过消融研究和分析,我们阐明了组成 MAGNeT 的每个组件的重要性,并指出了自回归和非自回归建模之间的权衡,考虑了延迟、吞吐量和生成质量。

HyperGANStrument: Instrument Sound Synthesis and Editing with Pitch-Invariant Hypernetworks
Authors Zhe Zhang, Taketo Akama
GANStrument 利用具有音高不变特征提取器和实例调节技术的 GAN,在合成真实乐器声音方面表现出了卓越的能力。为了进一步提高重建能力和音调准确性,以增强用户提供的声音的可编辑性,我们提出了 HyperGANStrument,它引入了音调不变超网络,以在给定一次性声音作为输入的情况下调制预训练的 GANStrument 生成器的权重。超网络调制为重建输入声音的发生器提供反馈。此外,我们利用超网络的对抗性微调方案来提高生成器的重建保真度和生成多样性。实验结果表明,该模型不仅增强了GANStrument的生成能力,而且显着提高了合成声音的可编辑性。

RaD-Net: A Repairing and Denoising Network for Speech Signal Improvement
Authors Mingshuai Liu, Zhuangqi Chen, Xiaopeng Yan, Yuanjun Lv, Xianjun Xia, Chuanzeng Huang, Yijian Xiao, Lei Xie
本文介绍了我们针对 ICASSP 2024 语音信号改进 SSI 挑战赛的修复和降噪网络 RaD Net。我们基于两阶段网络扩展了之前的框架,并提出了升级模型。具体来说,我们用 TEA PSE 的 COM Net 替换修复网络。此外,在训练阶段采用多分辨率判别器和多频带判别器。最后,我们使用三步训练策略来优化我们的模型。我们提交了两个具有不同参数集的模型来满足两个轨道的 RTF 要求。

Cross-Speaker Encoding Network for Multi-Talker Speech Recognition
Authors Jiawen Kang, Lingwei Meng, Mingyu Cui, Haohan Guo, Xixin Wu, Xunying Liu, Helen Meng
端到端多说话者语音识别作为直接转录多个说话者重叠语音的有效方法引起了人们的极大兴趣。当前的方法通常采用具有分支编码器的 1 个单输入多输出 SIMO 模型,或基于具有串行输出训练 SOT 的基于注意力的编码器解码器架构的 2 个单输入单输出 SISO 模型。在这项工作中,我们提出了一种跨说话人编码 CSE 网络,通过聚合跨说话人表示来解决 SIMO 模型的局限性。此外,CSE模型与SOT集成,以利用SIMO和SISO的优点,同时减轻它们的缺点。据我们所知,这项工作代表了集成 SIMO 和 SISO 以实现多说话者语音识别的早期努力。在两个说话人的 LibrispeechMix 数据集上进行的实验表明,CES 模型在 SIMO 基线的基础上将单词错误率 WER 降低了 8 个。

Zero Shot Audio to Audio Emotion Transfer With Speaker Disentanglement
Authors Soumya Dutta, Sriram Ganapathy
音频到音频 A2A 风格转换的问题涉及用目标音频的风格特征替换源音频的风格特征,同时保留源音频的内容相关属性。在本文中,我们提出了一种有效的方法,称为零样本情感风格转移 ZEST,它允许将给定源音频中存在的情感内容与目标音频中嵌入的情感内容进行传输,同时保留源中的说话者和语音内容。所提出的系统建立在将语音分解为语义标记、说话者表示和情感嵌入的基础上。利用这些因素,我们提出了一个框架来重建给定语音信号的音调轮廓并训练重建语音信号的解码器。该模型使用基于自我监督的重建损失进行训练。在转换过程中,情感嵌入仅从目标音频中导出,而其余因素则从源音频中导出。

Class-Incremental Learning for Multi-Label Audio Classification
Authors Manjunath Mulimani, Annamaria Mesaros
在本文中,我们提出了一种潜在重叠声音的类增量学习方法,用于解决一系列多标签音频分类任务。我们设计了一个增量学习器,可以独立于旧课程学习新课程。为了保留有关旧类的知识,我们提出了一种基于余弦相似性的蒸馏损失,可以最大限度地减少后续学习者特征表示中的差异,并将其与基于 Kullback Leibler 散度的蒸馏损失一起使用,以最大限度地减少各自输出的差异。实验在包含 50 个声音类别的数据集上进行,初始分类任务包含 30 个基类和 4 个增量阶段,每个阶段包含 5 个类别。每个阶段之后,都会对系统进行多标签分类测试,并使用迄今为止学到的整套类别。该方法在五个阶段获得的平均 F1 分数为 40.9,范围从第 0 阶段 30 个班级的 45.2 到第 4 阶段 50 个班级的 36.3。

SonicVisionLM: Playing Sound with Vision Language Models
Authors Zhifeng Xie, Shengye Yu, Mengtian Li, Qile He, Chaofeng Chen, Yu Gang Jiang
人们对为无声视频生成声音的任务越来越感兴趣,主要是因为它在简化视频后期制作方面的实用性。然而,现有的视频声音生成方法试图直接从视觉表示创建声音,由于难以将视觉表示与音频表示对齐,这可能具有挑战性。在本文中,我们提出了 SonicVisionLM,这是一种新颖的框架,旨在通过利用视觉语言模型生成各种声音效果。我们没有直接从视频生成音频,而是使用强大的视觉语言模型 VLM 的功能。当提供无声视频时,我们的方法首先使用 VLM 识别视频中的事件,以建议与视频内容匹配的可能声音。这种方法的转变将图像和音频对齐的挑战性任务转变为通过流行的扩散模型将图像与文本以及文本与音频对齐的更深入研究的子问题。为了提高法学硕士的音频推荐质量,我们收集了一个广泛的数据集,将文本描述映射到特定的声音效果,并开发了时间控制的音频适配器。我们的方法超越了当前将视频转换为音频的最先进方法,从而增强了与视觉效果的同步并改善了音频和视频组件之间的对齐。

FADI-AEC: Fast Score Based Diffusion Model Guided by Far-end Signal for Acoustic Echo Cancellation
Authors Yang Liu, Li Wan, Yun Li, Yiteng Huang, Ming Sun, James Luan, Yangyang Shi, Xin Lei
尽管扩散模型在语音增强方面具有潜力,但它们在声学回声消除 AEC 中的部署受到了限制。在本文中,我们提出了 DI AEC,开创了一种专用于 AEC 的基于扩散的随机再生方法。此外,我们提出了 FADI AEC,基于快速评分的扩散 AEC 框架,以节省计算需求,使其有利于边缘设备。它的突出之处在于每帧运行一次评分模型,实现了处理效率的显着提升。除此之外,我们引入了一种新颖的噪声生成技术,其中利用远端信号,结合远端和近端信号来提高评分模型的准确性。

High-precision Voice Search Query Correction via Retrievable Speech-text Embedings
Authors Christopher Li, Gary Wang, Kyle Kastner, Heng Su, Allen Chen, Andrew Rosenberg, Zhehuai Chen, Zelin Wu, Leonid Velikovich, Pat Rondon, Diamantino Caseiro, Petar Aleksic

FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild
Authors Zhi Song Liu, Robin Courant, Vicky Kalogeiton
自动理解有趣的时刻,即观看喜剧时让人发笑的时刻具有挑战性,因为它们与各种特征有关,例如肢体语言、对话和文化。在本文中,我们提出了FunnyNet W,这是一种依赖于视觉、音频和文本数据的交叉和自注意力来预测视频中有趣时刻的模型。与大多数依赖字幕形式的真实数据的方法不同,在这项工作中,我们利用视频自然产生的模式,视频帧因为它们包含场景理解所必需的视觉信息,b音频因为它包含与有趣相关的更高级别的线索诸如语调、音高和停顿之类的时刻以及使用语音转文本模型自动提取的 c 文本,因为它在由大型语言模型处理时可以提供丰富的信息。为了获取训练标签,我们提出了一种无监督的方法,可以发现并标记有趣的音频时刻。我们提供了五个数据集的实验:情景喜剧 TBBT、MHD、MUStARD、Friends 和 TED 演讲 URunny。大量的实验和分析表明,FunnyNet W 成功地利用视觉、听觉和文本线索来识别有趣的时刻,而我们的研究结果表明,FunnyNet W 具有预测野外有趣时刻的能力。

Efficient Selective Audio Masked Multimodal Bottleneck Transformer for Audio-Video Classification
Authors Wentao Zhu
音频和视频是主流媒体平台(例如 YouTube)中最常见的两种形式。为了有效地学习多模态视频,在这项工作中,我们提出了一种新颖的音频视频识别方法,称为音频视频 Transformer,AVT,利用视频 Transformer 的有效时空表示来提高动作识别的准确性。对于多模态融合,简单地在跨模态 Transformer 中连接多模态标记需要大量的计算和内存资源,相反,我们通过音频视频瓶颈 Transformer 来降低跨模态复杂性。为了提高多模态 Transformer 的学习效率,我们将自监督目标(即音视频对比学习、音视频匹配和屏蔽音视频学习)集成到 AVT 训练中,将不同的音频和视频表示映射到公共多模态表示空间中。我们进一步提出了一种屏蔽音频片段损失来学习 AVT 中的语义音频活动。对三个公共数据集和两个内部数据集的广泛实验和消融研究一致证明了所提出的 AVT 的有效性。具体来说,AVT 在动力学声音方面比之前最先进的同类产品高出 8 倍。通过利用音频信号,AVT 还超越了 VGGSound 上之前最先进的视频 Transformers 25 x 10 之一。

Using perceptive subbands analysis to perform audio scenes cartography
Authors Laurent Millot IDEAC , G rard Pel IDEAC , Mohammed Elliq
提出了真实或模拟立体声录音的音频场景制图。该音频场景分析是连续执行感知 10 个子带分析、使用短时间恒定场景假设和通道互相关来计算每个子带的两个通道之间的相对延迟和增益的时间规律,这允许在其移动源中跟踪移动源。移动,计算全局和子带直方图,其峰值给出固定源的发生信息。由 2 至 4 个固定源或由一个固定源和一个移动源组成的音频场景已经成功测试。将讨论进一步的扩展和应用。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/312350.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

智能分析网关V4方案:太阳能+4G+AI识别搭建智慧果园/种植园远程视频监控监管方案

一、方案背景 我国是水果生产大国,果园种植面积大、产量高。由于果园的位置大都相对偏远、面积较大、看守人员较少,值守的工作人员无法顾及园区每个角落,果园财产安全成为了关注的重点。人为偷盗、野生生物偷吃等事件时有发生,并…

【期末不挂科-C++考前速过系列P1】大二C++第1次过程考核(3道简述题&7道代码题)【解析,注释】

前言 大家好吖,欢迎来到 YY 滴C复习系列 ,热烈欢迎! 本章主要内容面向接触过C的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! YY的《C》专栏YY的《C11》专栏YY的《Lin…

详细分析Java中的分布式任务调度框架 XXL-Job

目录 前言1. 基本知识2. Demo3. 实战 前言 可视化任务调度 可视化配置 1. 基本知识 在Java中,分布式任务调度框架 XXL-Job 是一个开源的分布式任务调度平台,用于实现分布式系统中的定时任务调度和分布式任务执行。 下面是关于XXL-Job的一些概念、功…

C#用string.Replace方法批量替换某一类字符串

目录 一、关于字符串及其操作常识 二、String.Replace 方法 1.重载 2.Replace(Char, Char) 3.Replace(String, String) (1)实例: (2)生成结果: 4.Replace(String, String, StringComparison) 5.…

Ubuntu20.04下A-LOAM配置安装及测试教程(包含报错问题踩坑)

参考文章: ubuntu20.04下ros运行A-LOAM Ubuntu20.04下运行LOAM系列:A-LOAM、LeGO-LOAM、SC-LeGO-LOAM、LIO-SAM 和 LVI-SAM 需要学习源码的同学可以下载LOAM论文 LOAM论文链接 1.需要安装的库文件 1.1Eigen 3.3 可以直接使用apt命令安装,或…

【GO语言依赖】Go语言依赖管理简述

在运行环境中,遭遇报错,显示找不到函数 经过研究后发现需要进行依赖管理,进行如下操作后解决: 起源 最早的时候,Go所依赖的所有的第三方库都放在GOPATH这个目录下面。这就导致了同一个库只能保存一个版本的代码。如…

VS中动态库的创建和调用

VS中动态库的创建和调用 库 ​ 库是写好的现有的,成熟的,可以复用的代码。库的存在形式本质上来说库是一种可执行代码的二进制。 ​ 库有两种:静态库(.a、.lib)和动态库(.so、.dll)。所谓静态…

VUE指令(一)

vue会根据不同的指令,针对不同的标签实现不同的功能。指令是带有 v- 前缀的特殊标签属性。指令的职责是,当表达式的值改变时,将其产生的连带影响,响应式地作用于 DOM。 1、v-text:设置元素的文本内容,不会解…

Vulnhub-HACKSUDO: PROXIMACENTAURI渗透

文章目录 一、前言1、靶机ip配置2、渗透目标3、渗透概括 开始实战一、信息获取二、端口敲门三、web密码爆破四、getShell五、获取新用户六、提权 一、前言 由于在做靶机的时候,涉及到的渗透思路是非常的广泛,所以在写文章的时候都是挑重点来写&#xff0…

TypeScript类型挑战:实现内置的Omit实用类型

掌握 TypeScript Omit 泛型,一起完成 Type 挑战,巩固 TypeScript 知识。 为了帮助读者更好地巩固 TypeScript 的知识,我从 Github 上的 type-challenges 库中选择了几十个挑战,与您一起完成类型挑战。 挑战 实现内置的 Omit&…

初识Ubuntu

其实还是linux操作系统 命令都一样 但是在学习初级阶段,我还是将其分开有便于我的学习和稳固。 cat 查看文件 命令 Ubuntu工作中经常是用普通用户,在需要时才进行登录管理员用户 sudn -i 切换成管理用户 我们远程连接时 如果出现 hostname -I没有出现…

什么是数字身份?

数字身份是指代表在线实体的数据集合。数字身份可以代表用户、组织或电子设备,由他们的帐户、凭证、证书、行为和使用模式组成。在身份访问管理(IAM)中,需要数字身份来对用户进行身份验证并授予他们访问敏感数据的权限。 数字身份…

5、MAE:探索视觉预训练模型

目录 1、论文 2、背景与动机 3、回答的问题 4、创新与卖点 5、实现细节 模型框架 具体步骤 简单代码示例 6、一些资料 1、论文 Masked Autoencoders Are Scalable Vision Learnershttps://arxiv.org/pdf/2111.06377.pdf 2、背景与动机 在深度学习和计算机视觉的领域中…

【uniapp】新课uniapp零基础入门到项目打包(微信小程序/H5/vue/安卓apk)全掌握

一、uniapp和HBuilderX介绍 uni-app官方网站:https://uniapp.dcloud.net.cn/ 为什么要学习uniapp? 1、一套代码可以打包到不同的应用平台;一套代码编到十几个平台,这不是梦想。眼见为实,扫描以下二维码,…

2023年全国职业院校技能大赛软件测试赛题—单元测试卷⑧

单元测试 一、任务要求 题目1:根据下列流程图编写程序实现相应处理,执行j10*x-y返回文字“j1:”和计算值,执行j(x-y)*(10⁵%7)返回文字“j2:”和计算值,执行jy*log(x10)返回文字“j3:”和计算值…

Qt / day04

1. 思维导图 2. 编写程序实现闹钟如下 文件 代码 clock.h #include "clock.h" #include "ui_clock.h"Clock::Clock(QWidget *parent): QWidget(parent), ui(new Ui::Clock), ptrTimerShow(new QTimer(this)), ptrTimerAlarm(new QTimer(this)), ptrSpeec…

Spark六:Spark 底层执行原理SparkContext、DAG、TaskScheduler

Spark底层执行原理 学习Spark运行流程 学习链接:https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ 一、Spark运行流程 流程: SparkContext向管理器注册并向资源管理器申请运行Executor资源管理器分配Executor,然后资源管理器启动Execut…

iOS rootless无根越狱解决方案

据游戏工委数据统计,2023年国内游戏市场实际销售收入与用户规模双双创下新高,游戏普遍采用多端并发方式,成为收入增长的主因之一。 中国市场实际销售收入及增长率丨数据来源:游戏工委 多端互通既是机遇,也是挑战。从游…

使用 Docker 和 Diffusers 快速上手 Stable Video Diffusion 图生视频大模型

本篇文章聊聊,如何快速上手 Stable Video Diffusion (SVD) 图生视频大模型。 写在前面 月底计划在机器之心的“AI技术论坛”做关于使用开源模型 “Stable Diffusion 模型” 做有趣视频的实战分享。 因为会议分享时间有限,和之前一样,比较简…

MySQL篇—通过Clone插件进行远程克隆数据(第三篇,总共三篇)

在介绍 Clone 最终篇之前,我们先简要回顾一下前面所讲的内容。在第一篇中,我们探讨了 Clone 的用途、使用的前提条件、存在的限制,以及它的备份原理。Clone 是一种用于复制和备份数据的工具,它能够快速高效地创建数据的精确副本。…
最新文章