融云观察:给 ChatGPT 加上声音和脸庞,AI 社交的多模态试验

(👆点击获取行业首款《社交泛娱乐出海作战地图》)

如果将短剧的爆火简单粗暴地归因为剧情上头、狗血反转和精妙卡点,那 GenAI 世界这一年来可以说是一部短剧 Live Show。关注【融云全球互联网通信云】了解更多

这厢 Open AI 宫斗内幕还没起底完,那头 Google 就因为 Gemini 的 Demo 视频造假喜提热搜。

不过我们还是能从混杂的剧情中摘取出主线,那就是后发力量所展示出的大模型演进方向——从一开始便进行多模态训练和调优,而非从文本、代码、图像、音视频逐步突破的渐进式多模态。

多模态大模型的进化,会进一步丰富用户与 AI 的互动方式,深入地影响我们的社交生活。尤其是,在通信技术的助力下,我们建立和发展关系本身就已经在很大程度上转向了线上化和数字化。


给 ChatGPT 加上声音和脸庞

过去,聊天机器人基于规则运行,根据用户输入触发不同的脚本。它们无法根据对话背景和用户语气来调整自己,只能回应有限的主题或执行预定的任务。

如今,在大模型的驱动下,聊天机器人可以提供自由、流畅的对话体验,让对话式人工智能充满了趣味性。这一变革性创新,让所有应用都面临着重构机遇。

这一切从 ChatGPT 开始,但它并非一个终结者,而是激起层层涟漪的第一颗石子儿。在我们已经习惯 ChatGPT 等聊天机器人展现出的流畅对话能力后,给它们加上声音和脸庞就成了下一步发展方向。

硅谷投资机构 a16z 曾对“开发一款拥有丰富互动方式的 AI 伴侣软件”这一任务所需要用到的工具进行了梳理,开发者组合使用它们就可以创建相应产品,实现聊天、语音电话甚至视频通话的功能。

比如,使用 Vicuna、Pygmalion 等模型生成具有特定个性的文本回答;调用 ElevenLabs 的 API 生成更贴近真实,可以控制年龄、性别和口音的语音回复;还有能让郭德纲讲出一口流利英文的 HeyGen 视频 AI。(关于这个明星 AI 公司,我们此前曾在「给你牵线,也帮你把关」,AI 机器人在社交软件中的花样存在中有过介绍。)

已经有不少开发者落地了实践,其中一个基本共识是:人们乐于尝试文本、语音、视频等多种方式与聊天机器人进行互动,但大家依然会追求更接近真人的体验。

最近,ChatGPT 全面开放了语音功能,声音就十分拟真——会以人们组织语言时常发出的“emm”声音来开始一段回答,会有短暂停顿和呼吸声以及口音、语气。

在实际用例中,开发者可以在应用中接入两种质量有较大差异的 TTS(文本转语音)API,并将生成质量更好的服务设置为付费项。结果显示,用户愿意为了更加逼真的体验而付费

应用也在向着实时交互扩展,不过这将意味着难度升维,是多项技术的综合考验。

当系统接收到声音信息后,AI 需进行声音检测和 ASR(语音识别)、NLP(语义理解),判断对话场景和用户意图,并将回答进行语音合成,与用户进行对话。

贴近现实生活中的通话体验,产品还需要进行全双工通信(可以同时进行信号的双向传输)以自然地处理用户临时打断回答等情况,及时从回答转为接收和识别用户信息模式,并根据用户释放的新信息进行反馈。

在 RTC 实时通信方面,融云将客户端的采集、编码、发送、解码和展示的链条全部都做成 Pipeline,且服务端合流及流的二次消费基本都是可插拔的,可以非常好地与大模型相嵌,助力完成 AI 实时交互升级。

随着音频驱动面部动画技术的发展、响应延迟的降低、语音生成的进步,我们与 AI 的对话将变得越来越个性和沉浸。趋势已经显现,并在越来越多场景中应用。


社交主桌,教育冒头

AI 驱动的应用市场中,聚光灯首先照在了社交赛道上。

对话式机器人“性格外向”且能讨论任何主题,这使得陪伴型 AI 成为用户最先尝试的 GenAI 杀手级应用。

我们此前曾分享过a16z 最新研究:全球 GenAI TOP50 应用的「6 大启示」,其中提到的用户量 Top50 应用中,就有 9 款是陪伴型产品。

目前的聊天机器人大多身兼伴侣和助手双重身份,尤其是在 Character.AI 引领下,大多聊天机器人产品都平台化发展,以“聊天机器人集市”形态为主,可以由不同的“人格”来承担更多“职能”

但以能否提供更多情绪价值为界,垂类产品在用户体验上有着明显分野。以 Pi 和 Call Annie 这两个具备实时通信能力的 AI 产品为代表。

不同于既能写代码又能做规划的生产力型 AI,Pi 更着重于训练自己的对话能力,定位于倾听者和伙伴。

Pi 的产品界面非常简洁,对话框表达依然以文本为主,而后自动进行语音读取,也可以直接拨打语音电话进行实时交互。

在体验上与众不同的是,Pi 表现出了更高的“情商”,会在对话中主动提出延伸问题。官方也鼓励用户在工作生活中“卷不动了”的时候,通过和 Pi 对话来缓解压力。

单元 2

因切割游戏布局而引起热议的字节跳动,在 AI 社交出海领域推出的探索性产品 Cici,也采用了类似的设计。产品沿用了主流的“机器人集市”架构,但在对话中默认开启语音功能,会主动将文字回复用语音再读一遍。

前 Tinder 首席产品官推出的 AirChat,则允许用户创建用语音、文字或视频进行异步沟通的聊天室。产品内置了 AI 语音翻译,用户可以直接用自己的惯用语讲话,应用会进行翻译并模仿使用者的口音进行表达,降低了不同国家用户之间的沟通成本。

不同于这些偏重异步交互的产品,Call Annie 直接提供 FaceTime 一样自然的视频通话体验。

Call Annie 有完整的视频通话体验设计,拨打、接通后便可以开始通话;开着它操作其他应用,只要没挂电话,App 最小化后会显示依然在通话;支持音视频通话互切,快速反馈的语速也让用户有真实的感觉。并且,除了当家花旦 Annie,还提供其他四十多个对话者。

Call Annie 的所有设计都在为沉浸感加码,这个产品体验太贴合 1V1 社交场景了。

1V1 社交一直是社交品类中商业化路径最为明晰的形态,也是常年霸榜收入 Top 的赛道之一。在全球化的语境下,1V1 社交也是东南亚、北美、拉美等出海高价值区域的热门场景。

融云今年上线的 CallPlus SDK,就是支撑开发者进军这一场景的利器。完整封装了拨打、接听、挂断等整套呼叫流程,支持一对一及多人音视频通话;独家提供通话记录管理能力,且支持用户在过程中顺畅地进行音视频通话互转。

a16z 在一份报告中把 AI 对约会应用的改变总结为四个方向,分别是简介润色、语言建议、关系教练牵线搭桥

事实上,在 AI 语音和视频等更丰富的交互能力加持下,AI 重塑的可能不仅是线上约会的过程,甚至包括对象

也就是说,GenAI 带给社交的,不仅仅是基于 IM 和 RTC 通信能力提升社交关系升级的效率和体验,还有智能体、虚拟人等全新交互对象。这意味着社交将出现代际升级,社交范围将被重新定义。AI 伴侣会融入我们与朋友和家人的关系中,成为生活的一部分。

目前,用户对 Call Annie 的微词主要集中在其冷淡、自持、客观的态度上,“像一个不近人情的班主任”。这也是为什么在社交媒体上,这款应用最火的使用场景和宣传口径是“免费练习口语”。

据媒体报道,Call Annie 一推出,就造成了美国的教育平台 Chegg 的股价暴跌。无论是出于业务创新还是战略应对的考量,教育赛道对 AI 实时交互应用表现出更高的热情也就有据可依了。

文心一言中已经上线了英语口语老师插件,支持用户进行口语交流。网易有道也推出了相应的付费 App,内置话题来覆盖日常英语学习场景。

与侧重社交的 AI 机器人不同的是,教育场景的 AI 机器人大多在对话结束后会给用户的发音和语法打分,并提出润色建议。可以说,这很教育,也很符合简中互联网爱打分的氛围。

无论是社交、教育还是其他细分赛道,新一轮的创新热潮正在被 AI 推动,也考验从业者适应新业态的能力

AI 的大爆炸时刻,给被下行掌控的世界劈开了一道缝隙,并迅速蔓延为一场全球性的人声鼎沸。我们愿意相信,也积极参与它带来的范式转变。这将撑起人们对未来生活、社交方式的崭新畅想,能重新把我们带到希望里。


AIGC 常看常新,我们也在学习中整理了一些颇有助益的行业报告、论文。感兴趣的朋友,进入【融云全球互联网通信云】公众号,在对话框里发送“AIGC”即可获得这些资料。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/258990.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

别再唱衰Python了,未来十年Python的“霸榜”地位依旧!

直接说结论!不管唱反调的人怎么唱衰,Python 在下一个十年仍然十分重要,并且依旧会与时俱进。 我们都知道 Python 是一门了不起的编程语言,它改变了编程的游戏规则,将编程的格局提升到了一个完全不同的层次。 Python 的…

【C++初阶】学习string类的模拟实现

目录 前言:一、创建文件和类二、实现string类2.1 私有成员和构造函数2.2 析构函数2.3 拷贝构造函数2.3.1 写法12.3.2 写法2 2.4 赋值重载函数2.4.1 写法12.4.2 写法2 2.5 迭代器遍历访问2.6 下标遍历访问2.7 reserve2.8 resize2.9 判空和清理2.10 尾插2.10.1 尾插字…

HTML CSS 进度条

1 原生HTML标签 <meter>&#xff1a;显示已知范围的标量值或者分数值<progress>&#xff1a;显示一项任务的完成进度&#xff0c;通常情况下&#xff0c;该元素都显示为一个进度条 1.1 <meter> <html><head><style>meter{width:200px;}…

新能源车企年底冲刺KPI,只能抓住“价格战”做文章?

新能源汽车行业的价格战似乎看不到尽头。 自特斯拉吹响号角后&#xff0c;今年以来&#xff0c;业内已然开启了几轮颇具规模的价格战。 如今进入年底&#xff0c;价格战不仅没有消停&#xff0c;还愈打愈烈。据不完全统计&#xff0c;12月&#xff0c;已有20多家车企先后开启…

Nginx快速入门:访问日志access.log参数详解 |访问日志记录自定义请求头(三)

0. 引言 在企业的生产环境中&#xff0c;我们时常需要通过nginx的访问日志来统计流量、排查调用问题等&#xff0c;而nginx默认的日志格式所包含的信息远无法满足我们使用&#xff0c;因此常常需要对日志进行自定义&#xff0c;所以今天我们就来看如何自定义nginx的访问日志格…

anaconda 安装 使用 pytorch onnx onnxruntime

一&#xff1a;安装 如果不是 x86_64&#xff0c;需要去镜像看对应的版本 安装 Anaconda 输入命令 bash Anaconda3-2021.11-Linux-x86_64.sh 然后输入 yes 表示同意 确认安装的路径&#xff0c;一般直接回车安装在默认的 /home/你的名字/anaconda3 很快就安装完毕。输入 yes…

星融元中标华夏银行项目,助力金融数据中心可视网建设工作

近日&#xff0c;星融元成功入围华夏银行国产品牌网络流量汇聚分流器&#xff08;TAP&#xff09;设备供应商&#xff0c;在助力头部金融机构构建数据中心可视网络的建设工作中&#xff0c;星融元又一次获得全国性股份制银行客户的青睐。 华夏银行作为全国性股份制商业银行积极…

如何在Ubuntu系统中安装VNC并结合内网穿透实现远程访问桌面

文章目录 前言1. ubuntu安装VNC2. 设置vnc开机启动3. windows 安装VNC viewer连接工具4. 内网穿透4.1 安装cpolar【支持使用一键脚本命令安装】4.2 创建隧道映射4.3 测试公网远程访问 5. 配置固定TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址5.3 测试…

3d云渲染动画、效果图的速度,对比本地电脑渲染速度区别

与使用个人电脑进行渲染相比&#xff0c;3D云渲染服务擁有其无可比拟的优势。云端的服务器配置通常超出个人电脑&#xff0c;具有更强大的运算力和多任务并行处理的能力&#xff0c;使得同时执行多个渲染作业成为可能。这一点在处理图形复杂度高和数据量巨大的渲染项目时尤为显…

CEC2013(python):五种算法(OOA、WOA、GWO、DBO、HHO)求解CEC2013(python代码)

一、五种算法简介 1、鱼鹰优化算法OOA 2、鲸鱼优化算法WOA 3、灰狼优化算法GWO 4、蜣螂优化算法DBO 5、哈里斯鹰优化算法HHO 二、5种算法求解CEC2013 &#xff08;1&#xff09;CEC2013简介 参考文献&#xff1a; [1] Liang J J , Qu B Y , Suganthan P N , et al. Pro…

图片编辑文字用什么软件?带你了解这5个

图片编辑文字用什么软件&#xff1f;在当今数字化的时代&#xff0c;图片编辑已经成为我们日常生活中不可或缺的一部分。有时候&#xff0c;我们需要在图片上添加文字&#xff0c;以增强图片的视觉效果或传达特定的信息。那么&#xff0c;有哪些可以在图片上编辑文字的软件呢&a…

Java数据结构-模拟ArrayList集合思想,手写底层源码(1),底层数据结构是数组,编写add添加方法,正序打印和倒叙打印

package com.atguigu.structure; public class Demo02_arrayList {public static void main(String[] args) {MyGenericArrayListV1 arrayListV1 new MyGenericArrayListV1();//arr.add(element:100,index:1);下标越界&#xff0c;无法插入//初始化&#xff08;第一次添加&…

Spring Cloud Gateway请求路径修改指南:详解ServerWebExchange的完美解决方案及代码示例

&#x1f337;&#x1f341; 博主猫头虎 带您 Go to New World.✨&#x1f341; &#x1f984; 博客首页——猫头虎的博客&#x1f390; &#x1f433;《面试题大全专栏》 文章图文并茂&#x1f995;生动形象&#x1f996;简单易学&#xff01;欢迎大家来踩踩~&#x1f33a; &a…

python实现贪吃蛇游戏

文章目录 1、项目说明2、项目预览3、开发必备4、贪吃蛇代码实现4.1、窗口和基本参数实现4.2、绘制背景4.3、绘制墙壁4.4、绘制贪吃蛇4.5、绘制食物4.6、实现长度信息显示4.7、定义游戏暂停界面4.8、定义贪吃蛇死亡界面4.9、实现贪吃蛇碰撞效果4.10、实现添加食物功能4.11、实现…

jQuery —— 自定义四位数验证弹框

在提交表单发送请求前&#xff0c;想要校验下&#xff0c;但不想用第三方插件&#xff0c;就自己写了个自定义数字校验码弹框&#xff0c;更稳定些&#xff0c;样式有点low&#xff0c;记录下。 没什么硬性要求的话&#xff0c;可以使用第三方插件&#xff0c;会方便许多样式也…

SQL学习笔记+MySQL+SQLyog工具教程

文章目录 1、前言2、SQL基本语言及其操作2.1、CREATE TABLE – 创建表2.2、DROP TABLE – 删除表2.3、INSERT – 插入数据2.4、SELECT – 查询数据2.5、SELECTDISTINCT – 去除重复值后查询数据2.6、SELECTWHERE – 条件过滤2.7、AND & OR – 运算符2.8、ORDER BY – 排序2…

科研院校和研究所都在用功率放大器做哪些实验

科研院校和研究所在科研工作中常常使用功率放大器进行实验。功率放大器是一种电子设备&#xff0c;其主要功能是将输入信号的功率增加到预定的输出功率水平&#xff0c;并保持信号的波形不失真。它在各个学科领域都有广泛的应用&#xff0c;包括通信、无线电、雷达、生物医学等…

Mac安装Nginx

一起学习 1、确认你的电脑是否安装homebrew&#xff0c;打开电脑终端 输入&#xff1a; /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"2、确认homebrew是否安装成功&#xff0c;在终端输入&#xff1a; br…

Linux中使用HTTP协议进行网络通信的示例——你的“网络信使”

大家好&#xff0c;今天我们要聊聊在Linux中如何使用HTTP协议进行网络通信。听起来有点高大上&#xff0c;但其实并不难&#xff0c;让我们一起来看看&#xff01; 首先&#xff0c;我们要明白HTTP协议是什么。HTTP&#xff0c;全名为超文本传输协议&#xff08;Hypertext Tra…

操作系统课设-银行家算法VS2022

目录 1 目的和要求 2 银行家算法的数据结构 3 进程请求时的资源处理 4 安全性算法的设计思路 5 调试与分析 6 C语言源代码 7 心得体会 1 目的和要求 银行家算法是避免死锁的一种重要方法&#xff0c;能够有效的在资源分配的过程中&#xff0c;对系统的安全性进行检测。通…
最新文章