腾讯云把向量数据库“卷”到哪一步了?

c0d91419ec1e54723a920dc22a34c6fa.jpeg

“不是我不明白,这世界变化快”,崔健在20世纪写下的这句歌词,放在刚刚过去的2023年,也同样适用。技术风向的变化之快,让不少人感到惊讶,向量数据库这一年的潮起潮落,就是一个典型的例子。

2023年初大模型、生成式 AI的起飞,也带来了向量数据库的火爆,投融资项目爆发式增长,传统数据库厂商和公有云厂商都推出了相关产品。然而一年狂飙之后,市场又开始退潮,前不久全球最著名的 AI 项目之一AutoGPT 宣布,不再使用向量数据库。

6b80c66875ab34fd7393d1125f87be90.png

向量数据库真的是AI革命中的组成部分吗?这一市场有哪些参与者?腾讯云为代表的公有云厂商,又在这场技术创新中发挥了什么作用?

向量数据库

刚刚开始

86203b9f1c3a8cc5706e40ff312dbc59.png

新技术的火爆,必然会伴随炒作和泡沫,但向量作为大模型理解世界的数据形式,向量数据库作为AI革命重要基建的位置,长期来看,是不会动摇的。

为什么这么说?

向量数据库并不是一种特别新的数据库技术,在AI领域已经应用了七八年,谷歌在2015年就宣布使用RankBrain语义检索来处理搜索任务。如果说数据库是数据的“硬盘”,那么,向量数据库就是更适合AI体质的“硬盘”。

其“AI原生”的体质,具体表现在几个方面:

1.更高的效率。AI算法,要从图像、音频和文本等海量的非结构化数据中学习,提取出以向量为表示形式的“特征”,以便模型能够理解和处理。因此,向量数据库比传统基于索引的数据库有明显优势。

2.更低的成本。大模型要从一种新技术转化为产业价值,必须达到合理的投入产出比,而向量数据库可以有效减少存储和计算成本。一个公开数据是,通过腾讯云向量数据库,QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%,就在于检索效率、运行稳定性、运营效率、推荐算法等,有了较大的提升。

f346f0d4cc964720f08d71fadcd54c14.png

(腾讯云数据库产品架构)

3.更强的数据安全。有个企业直言:我沉淀了几十年的内部数据,是我的的核心竞争力,让我无偿去公开给大模型做训练,我肯定不愿意。想做大模型,还要确保数据的隐私安全,就必须与数据库产品做好配合,这给向量数据库的本地部署带来了广阔的需求。

4.更大的扩展性。随着大模型走向行业应用,垂直领域的AI用例不断增多,汹涌的数据洪潮和存算任务,会带来大量向量搜索的需求。而向量数据库嵌入向量的长度不受限制,具有良好的扩展性,可以根据AI用例和模型而变化,更好地处理大规模数据集。

所以说,除非大模型技术,在短期内发生颠覆性改变,否则落地应用还是需要向量检索和向量数据库。而作为大模型技术标杆的OpenAI最近也透露:我们可能已经非常接近实现通用人工智能(AGI),应该以通用人工智能的实现为前提进行创业和技术开发。

由此可以肯定,向量数据库市场必然还会迎来一轮增长。年底趋于冷静,只是2023年热情过度高涨的适当回调。

19a8d390f049239eec82fe5af0382d11.png

两股新势力

云是方向

从引爆到饱和,向量数据库市场的发展速度迅猛,也吸引了“群雄逐鹿”。

传统数据库厂商不必多说,既有相应的能力建设,也有一定的客户基础,推出相关产品是必然。一些在AI领域积淀已久的科技大厂,如谷歌、微软、Meta、百度等大厂,都有向量数据库的技术积累,也都可以向外输出相关能力和产品。这些我们都比较熟悉了。

而上一年狂飙突进的两股新势力,成为市场上的黑马,分别是创业公司和公有云。

以上半年爆火的AI创业新秀Pinecone为代表。Pinecone是闭源的领跑者,凭借良好的开箱即用的产品体验,获得了非常大的增长,B轮估值达到7.5亿美元。其他竞争者大多建立在开源项目的基础上。

总体来说,这些创业“独角兽”的向量数据库公司,固然新锐,但长期盈利能力还有待验证。原因是,其客户大多是尝鲜、实验性质。

一般来说,企业需要先将非结构化的私密数据,进行一个小的模型,进行向量化,产生一个向量的矩阵,再存储到向量数据库里,来供大模型学习和检索。这个过程涉及大量的工程化,会耗费企业许多开发人员、时间成本,一开始可能会因为AI大模型很火而对向量数据库产生兴趣,但能否真正在业务中落地还是个未知数,因此,长期付费意愿还有较大的不确定性。

另一股“新势力”:公有云厂商,也是向量数据库的积极参与者。

不是所有企业都有能力自建大模型所需要的基础设施,通过MaaS(模型即服务)业务来训练应用大模型,是更灵活的选择。

ffa8d37df302764b862af3135063c3d7.png

此外,上云用数赋智是大势所趋,很多政企客户往往会选择公有云或行业云来满足其业务需求,将数据迁移到云上,对云数据库的关注度和接受度上升,而这些用户在探索大模型时,会倾向于以整体解决方案的形式来交付,这就给了云厂商参与游戏的机会,同时也要求云厂商提供向量数据库的全栈支持。

以腾讯云为代表,腾讯云的AI 原生(AI Native)向量数据库Tencent Cloud VectorDB是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库。

f6d9bc378765a59d9ea3300525066d9b.png

除了产品之外,腾讯云提供了全面AI化解决方案,覆盖接入层、计算层、存储层,使用户在使用向量数据库的全生命周期,都能应用到AI能力。有数据显示,企业原先接入一个大模型需要花1个月左右时间,使用腾讯云向量数据库后,3天时间即可完成,极大降低了企业的接入成本。

此外,腾讯庞大的业务集群及智能化应用,为腾讯云向量数据库提供了绝佳的练兵场。腾讯集团每日处理千亿次检索的向量引擎(OLAMA),让腾讯云向量数据库的基本功能和性能得到了更加充分地检验与优化,从而淬炼出了很多让人眼前一亮的新能力。

以腾讯视频的应用为例,视频库中的图片、音频、标题文本等内容使用腾讯云向量数据库,月均完成的检索和计算量高达200亿次,有效满足了版权保护、原创识别、相似性检索等场景需求。

风物长宜放眼量,AI技术还在快速变化之中,AI Native的腾讯云在这一市场领域的竞争力还会进一步扩大。

接下来

向量数据库卷什么?

542eb6113defbbcb37877cb0a707046b.png

不难看到,市面上并不缺少向量数据库产品,缺少的是商业模式。

据东北证券预测,到 2030 年,全球向量数据库市场规模有望达到 500 亿美元,国内向量数据库市场规模有望超过600亿人民币。想要吃到这块巨大的蛋糕,仅仅形成技术趋势是远远不够的,成熟的产品化才能说服用户、兑现商业价值。

8394b4971011dc6b9838966e3a03c13c.png

目前来看,以腾讯云为代表的云厂商有几重特殊优势,或许会让向量数据库加速走向商业成功:

1.多元化部署。垂直行业大模型,数据都是私有机密的,客户一般不愿意放到公有云上,腾讯云提供私有部署、分布式、混合云等多种方案,打消疑虑。背后需要混合多云的云基础设施。

2.一体化AI方案。向量数据库的火爆,本质是AI需求,而AI Native时代的数据工程,还有许多复杂问题尚待解决,腾讯云提供一体化的AI解决方案,从底层算力集群、Maas模型平台到全栈工具链,通过软硬件协同优化AI开发成本,是企业和开发者所期待的。

3.产业服务能力。AI技术革命方兴未艾,行业热情高涨,但大多处于尝试探索期,需要结合自身业务、AI应用、IT设施等多种因素试错并迭代,这个过程中,随叫随到、帮助客户及时解决问题的ToB服务能力,也是非常看重的。深耕产业互联网的腾讯云,确实是企业在这场AI技术革命中可靠的伙伴。

开放、全面、贴心,才能支持企业用好向量数据库、大模型等基础设施,弄潮AI。

被大模型“带飞”的向量数据库,才刚刚开始,将在腾讯云上长出商业成功的羽翼,飞向更广阔的天地。

edc72a2da7dcd12b01b52c1c9452fde8.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/321584.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

文本编码转换:如何从UTF8到ANSI的批量处理技巧

在处理文本文件时,经常会遇到不同编码格式的问题。不同的编码会导致文件在打开或显示时出现乱码。UTF-8和ANSI是两种常见的编码格式。现在一起来看“办公提效工具”如何从UTF-8批量转换到ANSI编码的操作。 文本编码UTF-8未修改前的截图展示。 批量转换ANSI编码的方…

电子学会C/C++编程等级考试2023年09月(五级)真题解析

C/C++编程(1~8级)全部真题・点这里 第1题:红与黑 有一间长方形的房子,地上铺了红色、黑色两种颜色的正方形瓷砖。你站在其中一块黑色的瓷砖上,只能向相邻的黑色瓷砖移动。请写一个程序,计算你总共能够到达多少块黑色的瓷砖。 时间限制:1000 内存限制:65536 输入 包括多…

Codeforces Round 779 (Div. 2) D2. 388535(思维题 二进制性质/trie树上最大最小异或)

题目 t(t<1e5)组样例&#xff0c;每次给定l,r(0<l<r<2^17) 和r-l1个数ai&#xff0c;新序列是被[l,r]这些数异或上同一个x得到的&#xff0c; 求出x&#xff0c;有多个输出任意一个即可 思路来源 官方题解 洛谷题解 Educational Codeforces Round 157 (Rated…

MetaGPT学习笔记 - task1task2

章节&#xff1a;task1&task2 一.github地址&#xff1a;github.com/geekan/MetaGPT 二.MetaGPT: 多智能体框架​ 使 GPT 以软件公司的形式工作&#xff0c;协作处理更复杂的任务 MetaGPT输入一句话的老板需求&#xff0c;输出用户故事 / 竞品分析 / 需求 / 数据结构 / A…

流星全自动网页生成系统重构版源码

流星全自动网页生成系统重构版源码分享&#xff0c;所有模板经过精心审核与修改&#xff0c;完美兼容小屏手机大屏手机&#xff0c;以及各种平板端、电脑端和360浏览器、谷歌浏览器、火狐浏览器等等各大浏览器显示。 为用户使用方便考虑&#xff0c;全自动网页制作系统无需繁琐…

分布式任务调度平台XXL-JOB使用(二)

说明&#xff1a;之前总结过在CentOS系统里使用XXL-JOB。但在代码开发阶段&#xff0c;我们有时需要在本地环境测试定时任务代码&#xff0c;本文介绍如何在Windows系统使用XXL-JOB。 下载 &#xff08;1&#xff09;下载代码&#xff0c;解压打开 首先&#xff0c;去Github…

新手入门Java数组排序及二维数组(有练习)

第七章 二维数组 课前回顾 1.数组的定义方式都有哪几种 数据类型[] 数组名; 数组名 new 数据类型[数组的长度];数据类型[] 数组名 new 数据类型[数组的长度];数据类型[] 数组名 {数组的元素1,数组的元素2,...数组的元素n};//只能在定义数组时直接赋值的时候使用数据类型[…

HTML--CSS--图片和背景样式

图片样式 图片大小 最基本的应该就是对大小的管理 width:像素值; 宽度 height:像素值; 高度 <!DOCTYPE html> <html> <head> <title>这是一个标题</title><meta charset"utf-8"/><style>img{width: 300px;height: 300px…

从零开始的OpenGL光栅化渲染器构建2-冯式光照

冯式光照的构成 冯式光照模型(Phong Lighting Model)的主要结构由三个分量组成&#xff1a;环境(Ambient)、漫反射(Diffuse)和镜面(Specular)光照。 环境光 把环境光照添加到场景里非常简单。我们用光的颜色乘以一个很小的常量环境因子&#xff0c;再乘以物体的颜色&#xf…

【矩阵快速幂】封装类及测试用例及样例

作者推荐 视频算法专题 通俗的说&#xff0c;就是矩阵的乘方。 封装类 核心代码 class CMat { public:// 矩阵乘法static vector<vector<long long>> multiply(const vector<vector<long long>>& a, const vector<vector<long long>…

模拟器安装XPosed框架教程

Xposed框架下载&#xff08;搞不懂就先看完本篇教程再下载&#xff09; 99%的情况只需要下载里面的XPosed鸭就行了 安卓8及以下XPosed框架 - 多开鸭模拟器安装XPosed框架图文视频教程 关于本站XPosed框架的说明 XPosed框架(即XP框架)&#xff0c;由rovo89开发。适用于安卓7以…

任务6:启动Hadoop集群并测试

任务描述 知识点&#xff1a; 掌握Hadoop集群的启动 重 点&#xff1a; Hadoop集群的格式化流程Hadoop集群的启动流程 内 容&#xff1a; 格式化Hadoop集群启动测试Hadoop集群 任务指导 启动Hadoop集群并测试&#xff0c;过程如下&#xff1a; 初始化HDFS&#xff1…

C++面试宝典第19题:最长公共前缀

题目 编写一个函数来查找字符串数组中的最长公共前缀,如果不存在公共前缀,返回空字符串""。说明:所有输入只包含小写字母a-z。 示例1: 输入: ["flower", "flow", "flight"]输出: "fl" 示例2: 输入: ["dog",…

指针面试题详解

文章目录 指针笔试题解析笔试题1笔试题2笔试题3笔试题4笔试题5笔试题6笔试题7笔试题8 总结 指针笔试题解析 数组名是首元素地址,两种情况除外: 1.sizeof(数组名) , 这是这是计算整个数组的大小,单位是字节; 2.&数组名 , 得出的是整个数组的地址; 笔试题1 #include<st…

学习Vue配置代理总结

今天学习了Vue的配置代理&#xff0c;当我们想要向服务器取回来数据时就先要向服务器发送请求&#xff0c;但前端发送请求的方式也有很多种&#xff0c;首先是发送请求的鼻祖JS的XMLHttpRequest&#xff08;xhr&#xff09;&#xff0c;它操作起来相对麻烦&#xff0c;开发中也…

基于STM32的CMT液晶屏控制器驱动程序设计与优化

本文以STM32微控制器为基础&#xff0c;设计并优化了一个用于控制CMT液晶屏的驱动程序。在设计过程中&#xff0c;我们首先介绍了液晶屏的基本工作原理&#xff0c;包括CMT液晶屏的结构和信号传输机制。然后&#xff0c;我们详细讨论了STM32微控制器的GPIO、SPI和DMA模块的特性…

基于RTOS(实时操作系统)的CMT液晶屏控制器驱动程序开发与实现

RTOS&#xff08;实时操作系统&#xff09;提供了一种有效的方式来管理和调度多任务系统&#xff0c;对于液晶屏控制器的驱动程序开发来说&#xff0c;RTOS能够提供良好的实时性和可靠性。本文以RTOS为基础&#xff0c;设计并实现了一个用于控制CMT液晶屏的驱动程序。在设计过程…

微信小程序-----WXML模板语法之数据绑定与事件绑定

目录 前言 一、数据绑定 1.Mustache语法 2.Mustache 语法的应用场景 &#xff08;1&#xff09;绑定内容 &#xff08;2&#xff09;绑定属性 &#xff08;3&#xff09;运算&#xff08;三元运算、算术运算等) 二、事件绑定 1.事件 &#xff08;1&#xff09;什么是…

Java安装(可多版本共存)及IIntelliJ IDEA环境搭建汉化(保姆级教程!)

编程如画&#xff0c;我是panda&#xff01; 这次给大家出一期JAVA安装以及IIntelliJ IDEA的安装教程 IIntelliJ IDEA分为社区版和专业版&#xff0c;两版的教程都有&#xff0c;小伙伴们根据需要自行选择使用 并且我会讲解一台计算机中多个版本JAVA JDK配置安装 前言 我最早接…

尼科彻斯定理----C语言

大家好我是Beilef许久未见了&#xff0c;小弟学校考试刚结束。这个过程懂的都懂。痛------ 文章目录 目录 文章目录 前言(一不好懂可以直接跳到二&#xff09; 一、尼科彻斯定理是什么&#xff1f; 二、尼科彻斯定理解析 这是ai的回答 尼科彻斯定理&#xff08;Nikomačs theor…
最新文章