Elasticsearch:理解近似最近邻 (ANN) 算法

作者:来自 Elastic Elastic Platform Team

如果你是在互联网出现之前长大的,你会记得找到新喜好并不总是那么容易。我们是在无意中听到收音机里的新乐队时发现他们的,是因为忘了换频道偶然看到一个新电视节目的,也是几乎完全依据游戏封面的图片来找到新喜欢的视频游戏的。

如今,情况大为不同。Spotify 会向我推荐符合我的口味的艺术家,Netflix 会突出显示它知道我们会喜欢的电影和电视节目,Xbox 知道我们接下来可能想玩什么。这些推荐系统让我们更容易找到我们实际在寻找的东西,它们由最近邻(nearest neighbor - NN)算法驱动。NN 算法查看它可用的广泛信息海洋,并识别与你喜欢的东西或你正在寻找的东西最接近的东西。

但 NN 算法有一个固有的缺陷。如果它们分析的数据量太大,遍历每一个选项将永无止境。这尤其是问题,因为这些数据源每年都在变得越来越大。这就是近似最近邻(ANN)接过NN的接力棒并改变游戏规则的地方。

在本文中,我们将讨论关于 ANN 的以下关键主题:

  • ANN 的定义 
  • ANN 的工作原理
  • 何时使用 ANN 搜索
  • ANN 在向量搜索中的重要性
  • 各种类型的 ANN 算法

近似最近邻解释

近似最近邻(approximate nearest neighbor - ANN)是一种算法,它在数据集中找到一个非常接近给定查询点的数据点,但不一定是绝对最接近的一个。一个最近邻(NN)算法通过对所有数据进行详尽搜索来找到完美匹配,而近似最近邻(ANN)算法则会接受一个足够接近的匹配。

这听起来可能不是最好的解决方案,但实际上它是实现快速相似性搜索的关键。ANN 利用智能的快捷方式和数据结构来高效地遍历搜索空间。因此,它可以在大大减少时间和资源的情况下,识别出足够接近的数据点,在大多数实际场景中都是有用的。

基本上,这是一种权衡。如果你绝对需要找到最佳匹配,你可以通过 NN 来实现,但这会牺牲速度和性能。但是,如果你可以容忍精度的微小下降,ANN 几乎总是一个更好的解决方案。

近似最近邻(ANN)算法的

工作原理的第一部分是降维,其目标是将高维数据集转化为低维数据集。其目的是使预测模型任务比分析所有数据更简单、更高效。

这些算法基于数学概念的度量空间,其中数据点存在并且它们之间的距离被定义。这些距离必须遵循特定的规则(非负性、恒等性、对称性、三角不等式),常见的函数如欧几里得距离或余弦相似度用于计算它们。

为了更好地理解这一点,想象一下你在度假,正在寻找你租的别墅。与其逐一检查每栋建筑(高维),你可以使用地图,将问题简化为二维(低维)。(这是一个故意简化的例子。降维并不是 ANN 算法改善效率的唯一方法。)

ANN 算法还利用称为索引的巧妙数据结构来提高效率。通过将数据预处理成这些索引,ANN 可以更快地遍历搜索空间。可以将这些想象成街道标志,帮助你在地图上找到你的位置,更快地到达度假别墅。

何时使用近似最近邻搜索

在数据科学的快速发展世界中,效率至上。虽然找到真正最近的邻居(精确最近邻搜索)具有价值,但它常常需要较大的计算成本,正如我们已经讨论过的。这就是近似最近邻(ANN)搜索发光发热的地方,它提供了一个有吸引力的折衷方案:闪电般的速度与高但非绝对的准确性。

但是,确切地说,你应该在什么情况下选择 ANN 而不是其他搜索方法呢?

精确最近邻搜索可能很慢,但当精确度是你的首要任务或你正在使用小数据集时,它是最佳选择。k-nearest neighbors(kNN)位于 NN 和 ANN 之间,它在保持高准确性的同时提供更快的结果。但是,在决定k的值时可能难以准确把握,它也难以处理高维数据。

ANN 的速度和效率结合其高(但非绝对的)准确性,使其在许多情况下非常完美:

  • 大数据集:当处理百万甚至十亿级的数据点时,精确 NN 的详尽性质变得缓慢。ANN 在浏览庞大的数据景观中表现出色,迅速提供结果。
  • 高维数据:随着维度的增加,精确 NN 的计算量激增。ANN 的降维技术有效地缩小了搜索空间并提高了复杂数据(如图像或文本)的效率。
  • 实时应用:需要即时结果吗?推荐系统、欺诈检测和异常检测依赖于实时洞察。ANN 的速度使其非常适合这些场景。
  • 可接受的近似:如果你的应用可以容忍结果中的轻微不准确,ANN 的速度变得非常宝贵。例如,在图像搜索中,找到视觉上相似的图像 —— 而不是绝对最接近的一个 —— 可能就足够了。

ANN 在向量搜索中的重要性

向量搜索涉及将数据编码为密集向量,捕捉复杂的关系和嵌入式含义。这使得它非常适合搜索图像、文本和用户偏好等内容,而传统的基于关键词的搜索往往表现不佳。但是,维度诅咒也同样适用于这里。因为随着代表这些向量的维度数量增加,传统的搜索方法也会遇到困难,变得缓慢且低效。

ANN 通过将重点从寻找精确匹配转变为 “足够接近” 的匹配来解决了这个问题。这使得快速检索成为可能,你的向量搜索可以在庞大的数据集中快速找到相似的向量。它还提供了内置的可扩展性,因此你可以随意扩展数据集,而无需牺牲速度。

这些实时响应与提高的相关性和效率结合在一起,通常意味着 ANN 在释放向量搜索的真正潜力方面可能发挥着至关重要的作用。

近似最近邻算法的类型

虽然 ANN 的概念在搜索中提供了令人信服的速度优势,但实际上,这个术语涵盖了多种算法的多样化工具箱。它们都有各自的优势和权衡,了解这些细微差别在选择适合特定数据和搜索需求的正确工具时至关重要。

KD - trees

KD-trees 将数据点组织成分层树结构,根据特定维度对空间进行分区。这使得在低维空间和基于欧几里德距离的查询中能够进行快速高效的搜索。

但是,虽然 KD-trees 在低维空间中寻找最近邻时表现出色,但它们受到 “维度诅咒” 的影响。这是指随着维度数量的增加,点之间的距离会变得非常大。在这些高维空间中,KD-trees 基于单个轴进行分割的策略变得不再有效。这使得搜索需要检查大部分数据,失去了效率优势,并接近于简单线性扫描所有点的缓慢过程。

局部敏感哈希(locality-sensitive hashing - LSH)

LSH 是一种强大的 ANN 技术,通过将数据点 “哈希” 到较低维度的空间中,以一种巧妙地保留它们相似关系的方式进行工作。这种聚类使它们更容易被找到,并且使 LSH 能够在搜索大规模、高维度的数据集(如图像或文本)时表现出色,既具有速度又具有可扩展性。而且,在返回 “足够接近” 的匹配结果时,它仍能保持良好的准确性。但请记住,LSH 有时也可能产生误报(将非相似点视为相似),其有效性可能会根据距离度量和数据类型而有所不同。有各种各样的LSH家族专门设计用于处理不同的度量标准(例如欧几里德距离、Jaccard 相似性),这意味着 LSH 具有很强的通用性。

Annoy

Annoy(Approximate Nearest Neighbors Oh Yeah)并不是单一的算法,而是一个开源的 C++ 库,使用自己的算法来构建和查询树,而不是直接实现 LSH 或 KD-trees。它旨在实现在高维空间中的内存高效和快速搜索,适用于实时查询。实质上,它是一个提供了灵活性,适用于不同数据类型和搜索场景的用户友好接口。Annoy 的优势在于在一个平台上利用多种 ANN 方法,使你可以选择最适合你需求的方法。虽然它简化了流程,但请记住,在 Annoy 中选择正确的内部算法对于获得最佳性能至关重要,而其有效性仍取决于你的数据和准确性要求等因素。

线性扫描算法 - Liear scan algorithm

虽然通常不被分类为 ANN 技术,但值得一提的是线性扫描,因为它是一种蛮力方法,可以为你提供与其他 ANN 算法类似的结果。它按顺序迭代每个数据点,计算记录之间的距离并跟踪最佳匹配项。由于算法的简单性,它易于实现,适用于小数据集。基本方法的缺点是对于大数据集而言效率低下,在处理高维数据时速度慢,并且在实时应用中不实用。

选择合适的 ANN

在选择 ANN 之前,你应该考虑以下几点:

  • 数据集大小和维度:对于大型和高维数据,考虑使用局部敏感哈希;对于较小和低维数据,可以考虑使用 KD-trees。
  • 期望的准确度水平:如果绝对精确度至关重要,则线性扫描可能是最佳选择;否则,可以考虑 LSH 或 Annoy,以实现速度与准确度的平衡。
  • 计算资源:Annoy 提供了灵活性,但在选择其中的算法之前,请考虑内存和处理能力的限制。

记住,没有一种解决方案适用于所有情况。尝试不同的 ANN 算法,并评估它们在你特定数据上的性能,以找到最适合你向量搜索需求的完美匹配。除了这些选项之外,ANN 算法的世界不断发展,因此值得保持关注,以免错过可能改进你搜索的新内容。

ANN 是更好搜索的秘密武器

庞大而复杂的数据世界需要高效的工具来穿越其迷宫。这就是 ANN 可以成为将你的相似性搜索从普通提升到出色的秘密武器的地方。它提供了速度和可伸缩性,尽管在轻微准确度上有所妥协。而且,每周都有研究和发展工作,这将为 ANN 领域的动态性做出贡献。例如,量子计算和机器学习方面的进步可能会导致新型的 ANN 算法,这些算法甚至更快更高效。

我们已经探讨了不同的 ANN 算法,每种算法都有其独特的优势和劣势。但最终,最佳选择取决于你的具体需求。考虑数据大小、维度、准确度要求和资源等因素。进行实验,探索,并选择适合你的 ANN 算法,以充分发挥其潜力。从图像搜索到欺诈检测,这些算法可以产生巨大的影响,快速揭示隐藏的联系,并赋予数据驱动的洞察力。

因此,下次你搜索下一首歌曲、电影或视频游戏时,请记住幕后的默默英雄 —— ANN 算法 —— 它们连接着各种信息,产生联系。

接下来你应该做什么

当你准备好时,我们有四种方式可以帮助你利用你企业数据的洞察力:

  1. 开始免费试用,了解 Elastic 如何帮助你的业务。
  2. 参观我们的解决方案,了解 Elasticsearch 平台的工作原理以及我们的解决方案如何满足你的需求。
  3. 探索如何将生成式人工智能应用于企业。
  4. 将本文与你认识的可能感兴趣的人分享。通过电子邮件、LinkedIn、Twitter 或 Facebook 与他们分享。

原文:Understanding the approximate nearest neighbor (ANN) algorithm | Elastic Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/588298.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

本地搭建llama大模型及对话UI

环境说明:MBP 2023 M2Pro芯片 用到的工具/组件/技术:ollama、llama3:8b、docker、open-webui 1.下载ollama ollama官网下载地址:https://ollama.com/download 到ollama官网地址下载对应操作系统版本的ollama平台,按照安装指引…

unity制作app(2)--主界面

1.先跳转过来,做一个空壳!新增场景main为4号场景! 2.登录成功跳转到四号场景! 2.在main场景中新建canvas,不同的状态计划用不同的panel来设计! 增加canvas和底图image 3.突然输不出来中文了,浪…

区块链 | IPFS:CID

🦊原文:Anatomy of a CID 🦊写在前面:本文属于搬运博客,自己留存学习。 1 CID 在分布式网络中与其他节点交换数据时,我们依赖于内容寻址(而不是中心化网络的位置寻址)来安全地定位…

stm32单片机开发四、USART

串口的空闲状态时高电平,起始位是低电平,来打破空闲状态的高电平 必须要有停止位,停止位一般为一位高电平 串口常说的数据为8N1,其实就是8个数据位(固定的),N就是none,也就是0个校验…

审计师能力与专长数据集(2014-2022年)

01、数据介绍 审计师是专门从事审计工作的人员,他们对企业、政府机关、金融机构等组织进行独立的、客观的、合法的审计,以评估这些组织的财务状况、经营绩效和风险水平。审计师通过收集和评估证据,以确定被审计单位的财务报表是否公允、合法…

[数据结构]———交换排序

目录 1.交换排序 第一个定义了一个名为Swap的函数 第二个三数取中 2.冒泡排序 代码解析 冒泡排序的特性总结: 3.快速排序 1. hoare版本 2. 挖坑法 代码解析 3. 前后指针版本 代码解析 1.交换排序 基本思想:所谓交换,就是根据序列中两…

MyBatis-plus笔记——条件构造器和常用接口

wapper介绍 Wapper:条件构造抽象类 AbstractWapper:用于查询条件封装,生成 sql 的 where 条件 QueryWrapper:查询条件封装UpdateWrapper:Update 条件封装AbstractLambdaWrapper:使用Lambda语法 LambdaQuery…

五一假期Llama 3之魔改不完全攻略(Part 2)

2024年4月18日,Meta AI 正式宣布推出 Llama 3,这标志着开源大型语言模型(LLM)领域的又一重大进步。如同一颗重磅炸弹, Llama 3 以其卓越的性能和广泛的应用前景,预示着 AI 技术的新时代。 目前开源的是Lla…

Agent AI智能体:机器学习与自我优化的奇妙之旅

文章目录 📑前言一、Agent AI智能体的基本概念二、Agent AI智能体的技术进步2.1 机器学习技术2.2 自适应技术2.3 分布式计算与云计算 三、Agent AI智能体的知识积累3.1 知识图谱3.2 迁移学习 四、Agent AI智能体的挑战与机遇4.1 挑战4.2 机遇 小结 📑前言…

ASP.NET网络商店设计与实现

摘 要 本文首先系统地研究了开发电子商务网站的背景和意义,分析了当今B2C电子商务交易的网站特点和共性,从而得出设计本网站的思路和方法。接着介绍了实现系统开发的ASP.NET和IIS5.0环境,数据库用ACCESS实现。同时简要介绍了以上工具的功能…

手拉手springboot整合kafka

前期准备安装kafka 启动Kafka本地环境需Java 8以上 Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 Kafka启动方式有Zookeeper和Kraft,两种方式只能选择其中一种启动,不能同时使用。 Kafka下载…

状态模式

文章目录 1.UML类图2.状态基类3.状态实现类3.状态机管理类使用示例 1.UML类图 2.状态基类 public abstract class State {public string? Name { get; set; }public StateMachine? StateMachine {get; set;}public abstract void Exit();public abstract void Enter(); }3.…

Devops部署maven项目

这里讲下应用k8s集群devops持续集成部署maven项目的流程。 failed to verify certificate: x509: certificate signed by unknown authority 今天在执行kubectl get nodes的时候报的证书验证问题,看了一圈首次搭建k8s的都是高频出现的问题。 couldn’t get curren…

输入N,从1~N中挑出若干对数字,比如(a,b),(c,d)

题目: 输入N,从1~N中挑出若干对数字,比如(a,b),(c,d) 规定这个数对的value为两数之和,比如(a,b)的value为ab 现在从1~N中挑出若干个数对,他们满足: 每个数字只能被挑出一次 每个数对的value都不相等 每个数对的value都小于等于N 求:对于给定的N,能挑出这样的数对的最大个数max …

2024年Q1葡萄酒行业线上电商(京东天猫淘宝)销售排行榜

五一聚餐不可缺少饮品——葡萄酒。鲸参谋监测的线上电商平台(某东)Q1季度葡萄酒行业销售数据已揭晓! 从鲸参谋的数据中,我们可以明显看到今年Q1季度在线上电商平台(某东)葡萄酒行业的销售情况呈现出积极的…

【C++】STL使用详解

文章目录 前言1. string类1.1 string类对象的常见构造1.2 string类对象的容量操作1.3 string类对象的访问及遍历操作1.4 string类对象的修改操作1.5 string类非成员函数 2. vector2.1 vector的介绍2.2 vector的使用2.3 vector的迭代器2.4 vector空间容量操作2.5 vector增删查改…

笨蛋学C++之 C++连接数据库

笨蛋学C 之 VS2019使用C连接数据库 创建数据库SQL语句VS2019选择空项目,点击下一步创建输入项目名称,点击创建创建成功点击新建项创建源文件因为mysql是64位,此时的c项目是86位,所以这里需要将项目修改为x64位点击项目 -> 0501…

基于Python的人脸识别系统设计与实现(论文+源码)_kaic

基于Python的人脸识别系统设计与实现 摘 要 随着人工智能的发展,人脸识别系统在我们的生活中越来越被广泛应用。人脸识别系统是指能够从数字图像或视频源中识别人的技术。人脸识别系统可以通过多种方法工作,但是,它们通常是通过将给定图像中的面部特征与…

基于Vue Router和element-ui的LayOut

一、展示 二、代码 app.vue <template><div id"app"><el-container style"border: 1px solid #eee; height: 100vh"><el-aside v-bind:width"asideWidth" style"background-color: rgb(48, 65, 86);"><…

基于ROS从零开始构建自主移动机器人:仿真和硬件

书籍&#xff1a;Build Autonomous Mobile Robot from Scratch using ROS&#xff1a;Simulation and Hardware 作者&#xff1a;Rajesh Subramanian 出版&#xff1a;Apress 书籍下载-《基于ROS从零开始构建自主移动机器人&#xff1a;仿真和硬件》您将开始理解自主机器人发…
最新文章