【AI视野·今日Sound 声学论文速览 第五十四期】Thu, 7 Mar 2024

AI视野·今日CS.Sound 声学论文速览
Thu, 7 Mar 2024
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Can Audio Reveal Music Performance Difficulty? Insights from the Piano Syllabus Dataset
Authors Pedro Ramoneda, Minhee Lee, Dasaem Jeong, J.J. Valero Mas, Xavier Serra
自动评估音乐作品的演奏难度是音乐教育中根据学生的个人需求创建定制课程的关键过程。鉴于其相关性,音乐信息检索 MIR 领域描述了一些解决此任务的概念证明工作,主要关注高级音乐抽象,例如机器可读乐谱或乐谱图像。在这方面,直接分析录音的潜力通常被忽视,这阻止了学生探索可能没有正式符号级别转录的各种音乐作品。这项工作开创了自动估计录音中音乐作品的演奏难度的先河,有两个精确的贡献:第一个基于音频的难度估计数据集,即钢琴教学大纲 PSyllabus 数据集,包含来自 1,233 名作曲家的 11 个难度级别的 7,901 首钢琴曲,以及一个识别框架能够管理直接从音频派生的单模态和多模态方式的不同输入表示,以执行难度估计任务。包括不同预训练方案、输入模式和多任务场景的综合实验证明了该提案的有效性,并将 PSyllabus 建立为 MIR 领域基于音频的难度估计的参考数据集。

RADIA -- Radio Advertisement Detection with Intelligent Analytics
Authors Jorge lvarez, Juan Carlos Armenteros, Camilo Torr n, Miguel Ortega Mart n, Alfonso Ardoiz, scar Garc a, Ignacio Arranz, igo Galdeano, Ignacio Garrido, Adri n Alonso, Fernando Bay n, Oleg Vorontsov
广播广告仍然是现代营销策略不可或缺的一部分,其吸引力和目标受众潜力无可否认是有效的。然而,广播播放时间的动态性质和多个广播节目的增长趋势需要一个有效的系统来监控广告广播。本研究研究了一种新颖的自动广播广告检测技术,结合了先进的语音识别和文本分类算法。 RadIA 的方法超越了传统方法,无需事先了解广播内容。这一贡献允许检测即兴广告和新引入的广告,为无线电广播中的广告检测提供全面的解决方案。实验结果表明,所得到的模型经过仔细分段和标记的文本数据的训练,取得了 87.76 的 F1 宏观分数,而理论最大值为 89.33。本文深入探讨了超参数的选择及其对模型性能的影响。这项研究证明了它在确保遵守广告广播合同和提供竞争性监控方面的潜力。

Non-verbal information in spontaneous speech - towards a new framework of analysis
Authors Tirza Biron, Moshe Barboy, Eran Ben Artzy, Alona Golubchik, Yanir Marmor, Smadar Szekely, Yaron Winter, David Harel
语音中的非语言信号由韵律编码,并携带从对话动作到态度和情感的信息。尽管它很重要,但控制韵律结构的原则尚未得到充分理解。本文为韵律信号的分类及其与意义的关联提供了分析模式和技术概念证明。该模式解释了多层韵律事件的表面表征。作为实现的第一步,我们提出了一个分类过程,可以解开三个顺序的韵律现象。它依赖于微调预训练的语音识别模型,从而实现同时多类多标签检测。它概括了各种各样的自发数据,其性能与人类注释相当或优于人类注释。除了韵律的标准化形式化之外,解开韵律模式还可以指导沟通和言语组织的理论。

METAMAT 01: A semi-analytic Solution for Benchmarking Wave Propagation Simulations of homogeneous Absorbers in 1D/3D and 2D
Authors Stefan Schoder, Paul Maurerlehner
时域描述中声学仿真工作流程的开发对于预测气动声学或其他瞬态声学效应的声音至关重要。减轻噪音的常见做法是使用吸收器。这些吸声器的建模通常在频域中提供。建立了多种方法来弥补这一差距,研究在时域中对吸收器进行建模的方法。因此,这篇短文描述了时域解析解,用于对无限 1D、2D 和 3D 域的吸收体模拟进行基准测试。连接到解析解,提供Matlab脚本以轻松获得参考解。

Interactive Melody Generation System for Enhancing the Creativity of Musicians
Authors So Hirawata, Noriko Otani
这项研究提出了一个系统,旨在使用自动音乐创作技术来枚举人类之间的协作创作过程。通过集成多个循环神经网络 RNN 模型,该系统提供了类似于与多位作曲家合作的体验,从而培养了多样化的创造力。通过根据反馈动态适应用户的创作意图,系统增强了生成符合用户偏好和创作需求的旋律的能力。通过对不同背景的作曲家进行的实验评估了该系统的有效性,揭示了其促进音乐创造力的潜力,并提出了进一步完善的途径。该研究强调了作曲家与人工智能之间互动的重要性,旨在使音乐创作变得更容易理解和个性化。

Comparison Performance of Spectrogram and Scalogram as Input of Acoustic Recognition Task
Authors Dang Thoai Phan, Andre Jakob, Marcus Purat
声学识别是最近研究中深度学习的常见任务,采用短时傅里叶变换和小波变换等频谱特征提取。然而,没有多少研究发现讨论光谱特征提取器的优缺点以及性能比较。考虑到这一点,本文旨在比较这两种变换类型(称为谱图和尺度图)的属性。实现了用于声学故障识别的卷积神经网络,然后记录这两种类型的频谱提取器的性能以进行比较。考虑对同一音频数据库进行最新研究进行基准测试,以了解设计的频谱图和尺度图的效果如何。还分析了它们的优点和局限性。

Reinforcement Learning Jazz Improvisation: When Music Meets Game Theory
Authors Vedant Tapiavala, Joshua Piesner, Sourjyamoy Barman, Feng Fu
现场音乐表演总是迷人的,由于音乐家之间的动态以及与观众的互动,即兴创作具有不可预测性。爵士乐即兴创作是一个特别值得从理论角度进一步研究的例子。在这里,我们介绍了一种新颖的爵士乐即兴创作数学博弈论模型,为研究音乐理论和即兴创作方法提供了框架。我们使用计算模型(主要是强化学习)来探索不同的随机即兴策略及其在即兴创作中的配对表现。我们发现最有效的策略对是一种对最近的收益逐步变化做出反应的策略,其强化学习策略仅限于给定和弦中的音符和弦跟随强化学习。相反,对合作伙伴的最后一个音符做出反应并尝试与其和谐预测策略对协调的策略会产生最低的非控制收益和最高的标准偏差,这表明根据对合作伙伴玩家的即时反应来选择音符可能会产生不一致的结果。平均而言,和弦跟随强化学习策略表现出最高的平均回报,而和声预测表现出最低的平均回报。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/438889.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

感染了后缀为.[[backup@waifu.club]].wis勒索病毒如何应对?数据能够恢复吗?

引言: 在当今数字化时代,网络安全威胁层出不穷。其中,勒索软件是一种常见而具有破坏性的威胁之一。而.[[backupwaifu.club]].wis、[[MyFilewaifu.club]].wis、.[[Rastairmail.cc]].wis勒索病毒作为其中的一种,以其高度破坏性和隐…

软考69-上午题-【面向对象技术2-UML】-关系

一、关系 UML中有4种关系: 依赖;关联;泛化;实现。 1-1、依赖 行为(参数),参数就是被依赖的事物,即:独立事物。 当独立事物发生变化时,依赖事务行为的语义也…

阿里云ECS磁盘扩容操作手册

云原生专栏大纲 文章目录 ESC磁盘扩容步骤前提条件云盘备份云盘扩容扩容分区和文件系统前提条件操作视频操作步骤准备工作:获取目标云盘信息步骤1:扩容分区步骤2:扩容文件系统 ESC磁盘扩容步骤 扩容已有云盘的操作步骤和注意事项_云服务器 …

一些硬件知识(六)

防反接设计: 同步电路和异步电路的区别: 同步电路:存储电路中所有触发器的时钟输入端都接同一个时钟脉冲源,因而所有触发器的状态的变化都与所加的时钟脉冲信号同步。 异步电路:电路没有统一的时钟,有些触发器的时钟输入端与时钟脉冲源相连…

微信小程序(五十三)修改用户头像与昵称

注释很详细,直接上代码 上一篇 新增内容: 1.外界面个人资料基本模块 2.资料修改界面同步问题实现(细节挺多,考虑了后期转服务器端的方便之处) 源码: app.json {"window": {},"usingCompone…

打造经典游戏:HTML5与CSS3实现俄罗斯方块

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

Android随手记

activity的生命周期 创建时 onCreate() - onStart() - onResume() - onPause() - onStop() - onDestroy() 切换时 a切换到b a.onCreate() - a.onStart() - a.onResume - a.onPause - b.onCreate() - b.onStart() - b.onResume() - a.onStop() b切换回a b.onPause() - a.onR…

设计模式之——简单工厂模式

上图为简单工厂模式的架构图。 1,产品(Product) 将会对接口进行声明。 2,具体产品(Concrete Products)是产品接口的不同实现。 3,创建者(Concrete Creators)将会重写基…

Docker基础教程 - 7 容器数据卷

更好的阅读体验:点这里 ( www.doubibiji.com ) 7 容器数据卷 什么是容器卷,为什么需要容器卷? 我们在运行容器的时候,产生的数据都是保存在容器内部的。如果使用Docker来运行mysql容器,数据…

macOS Sonoma 14.4(23E214)发布[附黑苹果/Mac系统镜像]

黑果魏叔3 月 8 日消息,苹果今日向 Mac 电脑用户推送了 macOS 14.4 更新(内部版本号:23E214),本次更新距离上次发布隔了 29 天。 魏叔翻译 macOS 14.4 版本主要内容如下: macOS Sonoma 14.4 为你的 Mac 引…

遗传算法优化BP神经网络时间序列回归分析,ga-bp回归分析

目录 BP神经网络的原理 BP神经网络的定义 BP神经网络的基本结构 BP神经网络的神经元 BP神经网络的激活函数, BP神经网络的传递函数 遗传算法原理 遗传算法主要参数 遗传算法流程图 完整代码包含数据下载链接: 遗传算法优化BP神经网络时间序列回归分析,ga-bp回归分析(代码完…

子查询与连表查询

子查询与连表查询 标签:数据库 子查询 mysql> explain select e.empno,e.ename,(select dname from dept d where e.deptno d.deptno) as dname from emp e where e.deptno 1; -------------------------------------------------------------------------------------…

【Web安全】XSS攻击与绕过

【Web安全】XSS攻击与绕过 【Web安全靶场】xss-labs-master 1-20 文章目录 【Web安全】XSS攻击与绕过1. XSS攻击是啥?2. XSS如何发生?3. XSS分类3.1. 反射型3.2. 存储型3.3. DOM型 4. XSS攻击方式1. script标签2. img标签3. input标签4. details标签5.…

CAN总线及通讯的工作原理

一、CAN总线 CAN是控制器局域网络(Controller Area Network)的简称, 它是由研发和生产汽车电子产品著称的德国BOSCH公司开发的, 并最终成为国际标准(ISO11519),是国际上应用最广泛的现场总线之一。 二、工作原理 …

大规模语言模型中新的思想和方法

大规模语言模型的发展引入了多项创新的思想和方法,这些创新对实际效果产生了深远的影响: 1. 深度神经网络架构创新 如Transformer模型的引入,利用自注意力机制解决了长序列输入的处理难题,使得模型能够更有效地捕获语言中的长距离…

2024年AI辅助研发:科技遇上创意,无限可能的绽放

码到三十五 : 个人主页 心中有诗画,指尖舞代码,目光览世界,步履越千山,人间尽值得 ! 随着人工智能技术的持续突破与深度融合,2024年AI辅助研发正以前所未有的速度和规模,引领着科技界和工业界…

加密 / MD5算法 /盐值

目录 加密的介绍 MD5算法 盐值 加密的介绍 加密介绍:在MySQL数据库中, 我们常常需要对密码, 身份证号, 手机号等敏感信息进行加密, 以保证数据的安全性。 如果使用明文存储, 当黑客入侵了数据库时, 就可以轻松获取到用户的相关信息, 从而对用户或者企业造成信息…

Java学习笔记------内部类

类的五大成员 属性、方法、构造方法、代码块、内部类 内部类 格式: public class Outer{//外部类 public class Inner{//内部类 } } public class Test{//外部其他类 public static void main(String[] args) } inner类表示的事物是Outer类的一部分&#xf…

ABB机器人信号关联Cross Connection的具体方法示例

ABB机器人信号关联Cross Connection的具体方法示例 如下图所示,点击打开菜单,然后点击控制面板进入, 如下图所示,找到配置,点击进入, 如下图所示,找到“Cross Connection” 信号关联,点击进入, 如下图所示,选中“Cross Connection”后,点击下方的“显示全部”, 如下…

DFT应用:计算线性卷积

目录 一、计算两个有限长序列的线性卷积示例 二、无限长序列和有限长序列的卷积(重叠相加法) 实验1:数据实验 实验2:纯净语音加混响(音效) 二、无限长序列和有限长序列的卷积(重叠保留法) 实验1:数据实验 三、小结 一、计算两个有限长序…
最新文章