08.Elasticsearch应用(八)

Elasticsearch应用(八)

1.为什么需要相关性算分

我们在文档搜索的时候,匹配程度越高的相关性算分越高,算分越高的越靠前,但是有时候我们不需要算分越高越靠前我们可能需要手动影响算分来控制顺序比如广告(百度竞价),在ES中可以通过fuction score来手动控制算分

2.用户关心的搜索结果的相关性

  1. 是否可以找到所有相关的内容
  2. 有多少不相关的内容被返回了
  3. 文档的打分是否合理
  4. 结合业务需求,平衡结果排名

3.如何衡量相关性

  1. Precision(查准率):尽可能返回较少的无关文档
  2. Recall(查全率):尽量返回较多的相关文档
  3. Ranking :是否能够按照相关度进行排序

4.什么是相关性(Relevance)

搜索的相关性算分,描述了一个文档和查询语句匹配的程度。ES 会对每个匹配查询条件的结果进行算分_score。打分的本质是排序,需要把最符合用户需求的文档排在前面。ES 5之前,默认的相关性算分采用TF-IDF,现在采用BM 25

在这里插入图片描述

5.TF-IDF与BM25算法对比

在这里插入图片描述

6.相关概念

词频TF(Term Frequency)

检索词在一篇文档中出现的概率等于检索词出现的次数除以文档的总字数

Stop Word

“的”在文档中出现了很多次,但是对贡献相关度几乎没用,不应该考虑他们的TF

DF

代表检索词在所有文档中出现的频率

逆向文本频率(Inverse Document Frequency)

简单说就是,log(全部文档数/检索词出现过的文档总数)

字段长度归一值(field-length norm)

字段的长度是多少?字段越短,字段的权重越高。检索词出现在一个内容短的title要比同样的词出现在一个内容长的content字段权重更大

度量一条查询和结果文档相关性的简单方法

将搜索中的每一个词的TF相加

7.TF-IDF算法

介绍

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术

TF-IDF被公认为是信息检索领域最重要的发明,除了在信息检索,在文献分类和其他先关领域也有着非常广泛的应用

历史

IDF的概念,最早是剑桥大学的“斯巴克.琼斯”提出

1972年“关键词特殊性的统计解释和它在文献检索中的应用”,但是没有从理论上解释IDF应该是用log(全部文档数/检索词出现过的文档总数),而不是其他函数,也没有做进一步的研究

1970,1980年代萨尔顿和罗宾逊,进行了进一步的证明和研
究,并用香农信息论做了证明

现代搜索引擎,对TF-IDF进行了大量细微的优化,本质上就是将TF求和变成了加权求和

Lucene中的TF-IDF的评分公式

在这里插入图片描述

8.BM25算法

介绍

BM25 就是对 TF-IDF 算法的改进,对于 TF-IDF 算法,TF(t)部分的值越大,整个公式返回的值就会越大。BM25 就针对这点进行来优化,随着TF(t) 的逐步加大,该算法的返回值会趋于一个数值

公式

在这里插入图片描述

9.通过explain查看TF-IDF

GET /[index]/_search
{
    "explain":true,
    "query":{
        "match":{
            "content":"elasticsearch"
        }
    }
}

10.Boosting

什么是Boosting

Boosting是控制相关度的一种手段

参数Boosting的含义

  1. 当boost > 1时,打分的相关度相对性提升
  2. 当0<boost<1时,打分的权重相对性降低
  3. 当boost<0时,贡献负分

应用场景

希望包含了某项内容的结果不是不出现,而是排序靠后

示例

返回匹配positive查询的文档并降低匹配negative查询的文档相似度分。这样就可以在不排除某些文档的前提下对文档进行查询,搜索结果中存在只不过相似度分数相比正常匹配的要低

GET /[index]/_search
{
    "query":{
        "boosting":{
            "positive":{
                "term":{
                    "content":"elasticsearch"
                }
            },
            "negative":{
                "term":{
                    "content":"like"
                }
            },
            "negative_boost":0.2
        }
    }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/354836.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一文搞懂Secure Boot (安全启动)

何为安全启动&#xff1f; 随着汽车新四化的发展&#xff0c;尤其是网联化及自动驾驶的推进&#xff0c;汽车网络信息安全显得越来越重要。 随着高级驾驶辅助(ADAS)及自动驾驶的推出&#xff0c;车辆动力及制动控制需要部分或全部授权给智能驾驶系统&#xff0c;而车辆又暴露…

怎么测试app?app的测试技巧是什么?

前言 今天笔者想和大家来唠唠app测试&#xff0c;现在的app有非常的多&#xff0c;这些app都是需要经过测试之后才能发布到应用市场中&#xff0c;app已经成为了我们日常生活中不可或缺的一部分了&#xff0c;但它的功能必须强大&#xff0c;才能受到消费者的重视&#xff0c;…

WordPress如何自定义日期和时间格式?附PHP日期和时间格式字符串

WordPress网站在很多地方都需要用到日期和时间&#xff0c;那么我们应该在哪里设置日期和时间呢&#xff1f;又如何自定义日期和时间格式呢&#xff1f;下面boke112百科就跟大家一起来学习一下PHP标准化的日期和时间格式字符串。 特别说明&#xff1a;格式字符是标准化的&#…

【控制算法笔记】卡尔曼滤波(一)——基本概念和一维卡尔曼估计实现(python,C++)

本文是个人学习笔记&#xff0c;包含个人理解&#xff0c;如有错误欢迎指正。 前言–关于Kalman Filter 在工程实践中卡尔曼滤波器的应用场景非常丰富&#xff0c;尤其是针对需要大量连续数据处理的自动驾驶和工业现场控制场景中&#xff0c;几乎离不开卡尔曼滤波的踪迹。 在多…

类和对象 第五部分第二小节:左移运算符重载

作用&#xff1a;可以输出自定义数据类型 代码案例&#xff1a; 1.成元函数重载&#xff1a; 利用成员函数重载写出来的代码为 void operate<<(cout)等于p<<cout&#xff0c;与预期效果不符。因此我们不会利用成员函数重载<<运算符&#xff0c;因为无法实现c…

06.领域驱动设计:使用DDD分层架构,可以有效降低层与层之间的依赖

目录 1、概述 2、什么是DDD分层架构 1.用户接口层 2.应用层 3.领域层 4.基础层 3、DDD分层架构最重要的原则是什么 4、DDD分层架构如何推动架构演进 1.微服务架构的演进 2.微服务内服务的演进 5、三层架构如何演进到DDD分层架构 我们该怎样转向DDD分层架构 6、总结…

0127-2-Vue深入学习5—Vue-Router路由模式

1、Vue-Router三种路由模式&#xff1a; hash&#xff1a;#️⃣使用URL hash 值来做路由&#xff0c;支持所有路由器&#xff1b;history:&#x1f4d6;依赖HTML5 History API和服务器配置&#xff1b;abstract:⛓支持所有JS运行环境&#xff0c;Node.js服务端&#xff1b; 1.1…

陪诊小程序开发:让医疗服务更贴心

随着社会的发展和人口老龄化的加剧&#xff0c;医疗服务的需求日益增长。在这个背景下&#xff0c;陪诊小程序的开发应运而生&#xff0c;为医疗服务提供了更加便捷、高效的解决方案。本文将探讨陪诊小程序开发的意义、功能、优势以及未来发展趋势。 一、陪诊小程序开发的意义…

ES -倒排索引

倒排索引 在学习ES中的映射之前&#xff0c;我们先学习一下ES中的倒排索引。 定义 倒排索引就是单词到文档id的关系&#xff0c;如下所示&#xff0c;左边是一个正排索引&#xff0c;右边就是一个单词到文档id的倒排索引&#xff1a; 倒排表以字或词为关键字进行索引&#x…

XCTF:Normal_RSA[WriteUP]

从题目中获取到两个文件 flag.enc内容是通过rsa加密了的密文 pubkey.pem是rsa公钥&#xff0c;加密者利用这个文件对flag原文进行了加密 如果对rsa加密算法不了解的可以补一下教学视频 数学不好也能听懂的算法 - RSA加密和解密原理和过程_哔哩哔哩_bilibili 使用openssl对公…

【前端web入门第二天】02 表单-input标签-单选框-多选框

表单 文章目录: 1.input标签基本使用 1.1 input标签占位文本1.2 单选框 radio 1.3 多选框 checkbox 作用:收集用户信息。 使用场景: 登录页面注册页面搜索区域 1.input标签基本使用 input标签type属性值不同&#xff0c;则功能不同。 <input type"..."&g…

BGP同步规则

BGP同步规则:开启同步下,从IBGP收到一条路由不会传给任何EBGP邻居(实验效果IBGP邻居和EBGP邻居都不传),除非从自身的IGP中也学到这条路由。目的是防止AS内部出现路由黑洞,向外部通告了一个本AS不可达的虚假的路由。 同步规则只影响从IBGP邻居收到的路由,不影响从EBGP邻居收…

伊恩·斯图尔特《改变世界的17个方程》相对论笔记

它告诉我们什么&#xff1f; 物质包含的能量等于其质量乘以光速的平方。 为什么重要&#xff1f; 光的速度很快&#xff0c;它的平方绝对是一个巨大的数。1千克的物质释放出的能量相当于史上最大的核武器爆炸所释放能量的约40%。一系列相关的方程改变了我们对空间、时间、物质和…

C语言 unicode 字符串处理Demo

概述 做个笔录 1、示例1 #include <stdio.h> #include <string.h> #include "main.h"struct strStruct {uint16_t phone_num[16];uint16_t message[400]; };void filterSpaces(char* src, char* dst) {uint8_t i 0;uint8_t flag 0;char* p NULL; fo…

【保姆级教程】Windows11下go-zero的etcd安装与初步使用

【Go-Zero】Windows11下etcd的安装与初步使用 大家好 我是寸铁&#x1f44a; 总结了一篇Windows11下etcd的安装与初步使用的文章✨ 喜欢的小伙伴可以点点关注 &#x1f49d; 前言&#xff1a; 在使用etcd 前&#xff0c;我们需要了解一下etcd 是什么&#xff0c;为什么使用etcd…

C++ STL中list迭代器的实现

list 的模拟实现中&#xff0c;重难点在于迭代器功能的实现&#xff0c;因此本文只围绕 iterator 及 const_iterator 的设计进行介绍&#xff0c;其余如增删查改则不再赘述——在C语言的基础上&#xff0c;这些都非常简单。 与 string / vector 不同&#xff0c;list 的节点原生…

基于springboo校园社团信息管理系统

摘要 随着高校规模的扩大和学生社团活动的日益丰富多彩&#xff0c;校园社团信息管理成为一个备受关注的问题。为了更有效地组织、管理和推动校园社团的发展&#xff0c;本文设计并实现了一套基于Spring Boot的校园社团信息管理系统。本系统以实现社团信息的集中管理和高效运营…

Android Automotive:在路上释放 Android 操作系统的力量

Android Automotive&#xff1a;在路上释放 Android 操作系统的力量 Android 在汽车行业的历程车载信息娱乐系统 (IVI) 的演变汽车中的 Android&#xff1a;演变和进步Android 汽车操作系统的崛起Polestar 2&#xff1a;开创 Android 汽车体验Android 开源项目 (AOSP) 及其他项…

不确定优化入门:用简单实例讲明白随机规划、鲁棒优化和分布鲁棒优化

文章目录 1 引言2 学习动机3 经典问题4 解决方案4.1 忽略不确定性4.2 随机规划4.3 鲁棒优化4.4 分布鲁棒优化 5 总结相关阅读 1 引言 按2024的原定计划&#xff0c;今年开始要学习不确定优化了。 粗略翻阅了一些相关的书籍和教程&#xff0c;大都包含许多数学公式&#xff0c…

网络安全科普:SSL证书保护我们的网上冲浪安全

当我们在线上愉快冲浪时&#xff0c;各类网站数不胜数&#xff0c;但是如何判定该站点是安全还是有风险呢&#xff1f; 当当当&#xff0c;SSL数字证书登场&#xff01;&#xff01; SSL证书也称为数字证书&#xff0c;是一种用于保护网站和用户之间通信安全的加密协议。由权…