SIGIR 2023 | 语音让对话推荐更easy,火山语音联合新加坡科学研究院发布业内首个语音对话推荐数据集

近年来,推荐系统在工业界取得了巨大成功,甚至成为互联网发展中不可或缺的增长引擎,基于此研究者们也在积极探索推荐系统的新形态,其中对话推荐系统(Conversational Recommender System,简称CRS)作为一个备受关注的研究方向被热议。对话推荐系统主要是通过使用自然语言进行多轮对话,逐步了解用户的兴趣偏好,并向他们推荐可能感兴趣的物品。

通常对话推荐主要是以文本形式存在,即用户需要在聊天框内输入文本进行对话,然而在日常生活中,语音作为对话中常见且便捷的承载方式,除语义内容外,还包含性别、年龄、口音、情绪状态等更多信息。经过验证,这些信息可以有效提升对话推荐性能。更重要的一点,基于语音的对话推荐,对于视力障碍以及书写阅读能力有限的人群将会更加友好,因而更加包容。

创新意味着挑战,面对语音对话推荐(Voice-based Conversational Recommender System,简称VCRS)这一全新的研究课题,没有可用的数据集是当下比较棘手的事情。为了解决这个问题,火山语音团队联合新加坡科学研究院团队提出了首个VCRS Benchmark Dataset论文入选SIGIR 2023,旨在讲述该方面的研究,推动语音对话推荐的发展。

  论文地址:https://arxiv.org/pdf/2306.08219.pdf

  代码链接:https://github.com/hyllll/VCRS

图片

在该数据集生产过程中,双方团队使用了ChatGPT以及语音合成技术,通过在真实推荐数据的基础上模拟生成对应的语音对话推荐数据,并进一步实验验证了语音对话推荐相较于传统的文本对话推荐具有更大优势;基于语音信号,模型可以抽取性别、年龄等辅助信息进一步提升推荐准确率;最后该论文还给出了未来语音对话推荐研究的范式判断,从而激发更多相关工作。

VCRS数据集的生产流程

具体来说如下图所示,VCRS数据集的生产过程主要包括四个部分,分别是:

  1. 骨干数据集选择(Backbone dataset selection)

  2. 文本对话生成(Text-based Conversation Generation)

  3. 语音对话合成(Voice-based Conversation Generation)

  4. 数据质量评估(Quality Evaluation)

图片

VCRS数据集的生产过程

骨干数据集选择(Backbone Dataset Selection)对于VCRS数据集生产,一个合格的候选骨干数据集需要包含三种信息,分别是用户-商品交互记录、商品特征以及用户特征。通过用户—商品交互记录以及商品特征可以合成文本对话,进而再凭借用户特征(性别、年龄等信息就)就可以完成语音对话合成。根据以上规则,该论文选取了Coat 和MovieLens-1M两个数据集进行了实验。

文本对话生成(Text-based Conversation Generation)论文提出根据对话模板进行slot filling的方式来完成对话语句的生成,该过程主要包含三个部分:

  • 模板生成(Template Generation)

首先需要为每种商品特征(例如衣服颜色、款式等)设计不同形式的询问和回答组合。针对每个组合都分配了一种独特的标签-标识符tag-id,以便在后续的模板选择中方便使用。这种设计有效避免了下图所示“答非所问”的情况,从而使生成的对话更加连贯与紧凑。

图片

Bad cases: “答非所问”示例

同时该团队还借助于ChatGPT的对话生成能力,在初始模板基础上进行改进和丰富,以增加模板的多样性和自然性;为进一步保证对话的完整性,还在基本的问询/回答模板之外为对话设计了相应的开始/结束模板。

  • 模板选择(Template Selection)

由于在模板生成阶段,每个标签-标识符(tag-id)对应的问答模板已经具有密切相关性,所以在模板选择阶段只需分别从每个标签-标识符下采样问题和答案即可。此外,考虑到很多对话推荐场景下,用户在互动初始阶段通常没有非常清晰的意图,对此团队们采用了有偏的采样策略,即相对于询问类的问题,选择类的问题被赋予更高的采样概率。

  • 特征选择(Feature Selection)

根据上述模板生成和选择的方法,目前可以对某一商品特征进行对话合成,但对于一件商品而言,通常会涉及多个特征,例如颜色与款式等,所以确定不同特征的询问顺序对于推荐结果常常产生显著影响,因此这些特征对用户的偏好具有不同权重。为了解决这个问题,团队们提出了一种利用决策树中的LightGBM方法来计算各个特征权重的方式,具体的计算方法如下图表示:

图片

特征权重计算流程

语音合成(Voice-based Conversation Generation)根据上述文本对话的生成结果,双方团队进一步利用语音合成系统将生成的文本对话转化为相应的语音对话,在此过程中主要采用了当前端到端的VITS系统。对于Agent的语音合成,使用了基于LJSpeech训练的单一说话人TTS模型;而对于User的语音对话合成,则采用了基于VCTK训练的多说话人TTS模型,在该模型中,依据推荐数据集中用户的辅助信息(年龄、性别),与VCTK数据集中的Speaker进行匹配,进而确定User的说话人ID。

数据质量评估(Quality Evaluation)为了评估生成的数据质量,团队们分别从文本质量和语音质量两个维度对数据集进行了评估。在文本质量评估过程中使用了目前SOTA的FED (fine-grained evaluation of dialogue)指标,FED使用预训练的DialoGPT模型作为基准来对对话进行18个尺度的评估,具体细则既包含局部评分(如正确性,可读性及流畅性等),又包含了全局评分(如连贯性,一致性及多样性等)。从下述的对比结果中可以看到,合成得到的对话评分超过了人类真实的对话推荐数据集(ReDial, OpenDialKG以及INSPIRED)。

图片

同时下图示例也展示了合成的推荐对话与真实对话相似,并且明显优于之前工作HOOPS中的文本推荐对话。

图片

合成对话示例及对比

对于语音对话的评估主要采用主观评测的方式,具体做法是将文本对话分别通过多个语音合成系统 (TacoW, TranW, FastW)与VITS进行比较,最终结果如下表所示,VITS明显优于其他模型。

图片

更重要的一点,团队们利用以上合成的VCRS Benchmark Dataset,进一步验证了在推荐性能方面使用该数据集所带来的好处,具体方案如图:

图片

两阶段语音对话推荐解决方案

在推荐模型的训练过程中,语音对话首先经过语音编码器(Wave2Vec2)进行编码,并从中提取出辅助信息(性别、年龄)的表示;随后这些提取到的辅助信息被注入推荐模型中,这一步能够增强推荐模型的性能;此外团队们还给出了未来在语音对话推荐场景下端到端的方案,如下图所示:

图片

端到端语音对话推荐解决方案

实验结果

论文基于Factorization Machines (FM)在合成的语音对话推荐数据集进行了推荐性能的分析,具体结果所示:

图片

通过实验结果的观察,可以明显看出当语音中融入性别或年龄单一信息时,推荐模型的性能会显著提高;而当性别和年龄信息同时被引入时,模型的性能则进一步得到提升。这一系列实验结果表明,语音对话推荐研究的必要性以及重要性,甚至对于未来在端到端语音推荐场景下所能发现的更多信息充满了信心,在这个领域将会展现出更多令人振奋的发现。

一直以来,火山语音团队面向字节跳动内部各业务线,提供优质的语音AI技术能力以及全栈语音产品解决方案,并通过火山引擎对外提供服务。自 2017 年成立以来,团队专注研发行业领先的 AI 智能语音技术,不断探索AI 与业务场景的高效结合,以实现更大的用户价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/44238.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Mac上安装sshfs

目录 写在前面安装使用参考完 写在前面 1、本文内容 Mac上安装sshfs 2、平台 mac 3、转载请注明出处: https://blog.csdn.net/qq_41102371/article/details/130156287 安装 参考:https://ports.macports.org/port/sshfs/ 通过port安装 点击啊insta…

Qt/C++音视频开发49-多级连保存和推流设计(同时保存到多个文件/推流到多个平台)

一、前言 近期遇到个用户需要多级联的保存和推流,在ffmpegsave多线程保存类中实现这个功能,越简单越好,就是在推流的同时,能够开启自动转储功能,一边推流的同时一边录像保存到本地视频文件。最初设想的一个方案是new两…

【MySQL】之复合查询

【MySQL】之复合查询 基本查询多表查询笛卡尔积自连接子查询单行子查询多行子查询多列子查询在from子句中使用子查询 合并查询小练习 基本查询 查询工资高于500或岗位为MANAGER的雇员,同时还要满足他们的姓名首字母为大写的J按照部门号升序而雇员的工资降序排序使用…

源码对接微软Azure OpenAI 规范注意点

众所周知,我们是访问不通OpenAI官方服务的,但是我们可以自己通过代理或者使用第三方代理访问接口 现在新出台的规定禁止使用境外的AI大模型接口对境内客户使用,所以我们需要使用国内的大模型接口 国内的效果真的很差,现在如果想合…

深圳湾晚霞下的职场分享:723深圳COC社区活动回顾

文章目录 深圳湾晚霞下的职场分享:723深圳COC社区活动回顾前言人物观察架构师李肯连续创业者石云升鸿蒙布道师坚果 职友分享个人分享 后记最后分享一波:深圳湾晚霞美图! 深圳湾晚霞下的职场分享:723深圳COC社区活动回顾 前言 ​…

vue项目入口和个文件之间的关系

vue项目入口和个文件之间的关系 1、代码的执行顺序和引入关系 1、代码的执行顺序和引入关系

时钟分频器

文章目录 一、8分频二、n倍时钟分频器 一、8分频 8倍时钟分频器是一种电路或设备,用于将输入时钟信号的频率分成原来的1/8。它可以在数字电子系统中用于将高频时钟信号降低到较低的频率,以满足特定的系统需求。 在这个电路中,CLK是输入的时钟…

【wxWidgets】剪贴板和拖放操作

【wxWidgets】剪贴板和拖放操作 使用剪贴板传输数据时应用程序间的一种交互方式 剪贴板和拖放操作在wxWidgets中共享了一些类来实现数据的传输 数据对象 wxDataObject类时剪贴板操作和拖放操作的核心,该类实例代表了拖放操作中鼠标拖拽的事物和剪贴板中拷贝和粘贴…

10分钟搭建链路追踪平台

随着项目越来越多,相互调用越来越复杂,搭建一个可视化的链路追踪平台显得尤为重要,今天给大家介绍的是zipkin,一个轻量级的零侵入的链路追踪平台,看我怎么10分钟给大家搭建出来。 1,介绍 zipkin官网&…

机器人制作开源方案 | 智能垃圾桶

1. 功能说明 智能垃圾桶是一种利用物联网技术和智能感知能力的智能设备,旨在提高垃圾分类和处理的效率。通常具备以下特点和功能: ① 智能感知:智能垃圾桶配备各种传感器,如压力传感器、红外线传感器等,可以实时感知…

FPGA开发:按键消抖

按键是FPGA开发板上的重要交互元件,因为按键的内部的结构设计,在按下和松开按键时,按键会无法避免地产生机械抖动,因此要对按键输入进行特殊处理,否则可能会因为机械抖动产生意外的重复触发。 按键消抖有很多方法&…

超详细,自动化测试allure测试报告实战(总结)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 allure可以输出非…

python机器学习(四)线性代数回顾、多元线性回归、多项式回归、标准方程法求解、线性回归案例

回顾线性代数 矩阵 矩阵可以理解为二维数组的另一种表现形式。A矩阵为三行两列的矩阵,B矩阵为两行三列的矩阵,可以通过下标来获取矩阵的元素,下标默认都是从0开始的。 A i j : A_{ij}: Aij​:表示第 i i i行,第 j j j列的元素。…

记录--关于前端的音频可视化-Web Audio

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 背景 最近听音乐的时候,看到各种动效,突然好奇这些音频数据是如何获取并展示出来的,于是花了几天功夫去研究相关的内容,这里只是给大家一些代码实例&…

数字孪生:未来科技的新前沿

数字孪生作为一项新兴的研究方向,正逐渐成为科技界的焦点。它是将现实世界中的实体、系统或过程通过数字化手段进行建模、仿真和分析,形成与实体相对应的数字化副本。数字孪生的发展为我们带来了无限的想象空间,以及解决现实问题的新途径。 在…

如何有效跟踪你的计费时间?

对于自由职业者、小型企业和远程团队来说,时间跟踪是必需的。了解自己在单个项目或任务上投入了多少时间,可以帮助他们有效管理资源和优化工作流程。 然而,在向客户收费时,时间跟踪多了一层复杂性:不仅需要跟踪所花费…

在Win11的WSL子系统Ubuntu上安装Gnome桌面环境

目录 1. 使用 WSL 在 Win11 上安装 Linux 2. 安装Ubuntu 22.04默认Gnome桌面环境 2.1更新Ubuntu 22.04软件包 2.2 安装Ubuntu桌面环境 2.3 重启服务 2.4 重启Ubuntu 22.04系统 2.5 登录Gnome桌面环境 在Win11上安装ubuntu版linux系统并实现默认Gnome桌面环境&#xff08…

Vue中TodoList案例_总结

完整项目&#xff1a; App.vue <template><div id"root"><div class"todo-container"><div class"todo-wrap"><MyHeader :addTodo"addTodo"/><MyList :todos"todos" :checkTodo"che…

2023年一建学霸笔记

考点:单方取消或辞去委托承担的民事责任女《民法典》规定&#xff0c;因解除合同造成对方损失的&#xff0c;除不可归责于该当事人的事由外&#xff0c;无偿委托合同的解除方应当赔偿因解除时间不当造成的直接损失&#xff0c;有偿委托合同的解除方应当赔偿对方的直接损失和合同…

热备盘激活失败导致raid5阵列崩溃的服务器数据恢复案例

服务器数据恢复环境&#xff1a; 一台Linux Redhat操作系统服务器上有一组由5块硬盘组建的raid5阵列&#xff0c;包含一块热备盘。上层部署一个OA系统和Oracle数据库。 服务器故障&#xff1a; raid5阵列中的1块磁盘离线&#xff0c;硬盘离线却没有激活热备盘&#xff0c;直到…