【ElasticSearch】DSL查询语法

文章目录

  • 1、DSL查询分类
  • 2、DSL基本语法
  • 3、全文检索查询
  • 4、精确查询
  • 5、地理查询
  • 6、复合查询--相关性打分算法
  • 7、复合查询之Function Score Query
  • 8、复合查询之BooleanQuery

1、DSL查询分类

Elasticsearch提供了基于JSON的DSL(Domain Specific Language)来定义查询。官方文档:

https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl.html

其中,常见的查询类型有:

  • 查询所有:查询出所有数据,一般测试用。例如:
match_all
  • 全文检索(full text)查询:利用分词器对用户输入内容分词,然后去倒排索引库中匹配。例如:
match_query
multi_match_query
  • 精确查询:根据精确词条值查找数据,一般是查找keyword、数值、日期、boolean等类型字段。例如:
ids
range
term
  • 地理(geo)查询:根据经纬度查询。例如:
geo_distance
geo_bounding_box
  • 复合(compound)查询:复合查询可以将上述各种查询条件组合起来,合并查询条件。例如:
bool
function_score

2、DSL基本语法

GET /indexName/_search
{
  "query": {
    "查询类型": {
      "查询条件": "条件值"
    }
  }
}

举例,查询类型为match_all,那查询条件就为空了:

在这里插入图片描述
示例:

在这里插入图片描述

3、全文检索查询

全文检索查询,会对用户输入内容分词,常用于搜索框搜索

在这里插入图片描述

全文检索第一种:match查询

会对用户输入内容分词,然后去倒排索引库检索,语法:

GET /indexName/_search
{
  "query": {
    "match": {
      "FIELD": "TEXT"
    }
  }
}

注意这里的字段只有一个,但实际场景如:输入虹桥,预期返回business、name、brand等字段包含虹桥的数据,如此就得用上一节的copy_to:all里的all字段:

GET /indexName/_search
{
  "query": {
    "match": {
      "all": "虹桥"
    }
  }
}

在这里插入图片描述
若再加词语,分词的原因,则返回结果更多,且同时有如家和虹桥两个词语的结果会排到最前面:

GET /indexName/_search
{
  "query": {
    "match": {
      "all": "虹桥如家"
    }
  }
}

在这里插入图片描述

全文检索第二种:multi_match查询

与match查询类似,只不过允许同时查询多个字段,语法:

GET /indexName/_search
{
  "query": {
    "multi_match": {
      "query": "TEXT",
      "fields": ["FIELD1", " FIELD12"]
    }
  }
}

此时就不用借助copy_to和定义的all字段了:

GET /hotel/_search
{
  "query": {
    "multi_match": {
      "query": "虹桥如家",
      "fields": ["brand", "name","business"]
    }
  }
}

在这里插入图片描述

二者结果一样,但从性能考虑,推荐match+copy_to,因为参与搜索的字段越多,性能越低。


小结:
在这里插入图片描述

4、精确查询

精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词。常用的两种:

  • term:根据词条精确值查询
  • range:根据值的范围查询

在这里插入图片描述

term查询:

// term查询
GET /indexName/_search
{
  "query": {
    "term": {
      "FIELD": {
        "value": "VALUE"
      }
    }
  }
}

举例:

// term查询
GET /hotel/_search
{
  "query": {
    "term": {
      "city": {
        "value": "上海"
      }
    }
  }
}

在这里插入图片描述

精确匹配,必须一模一样:

在这里插入图片描述

range查询:

// range查询
GET /indexName/_search
{
  "query": {
    "range": {
      "FIELD": {
        "gte": 10,
        "lte": 20
      }
    }
  }
}

举例:

// range查询
GET /hotel/_search
{
  "query": {
    "range": {
      "price": {
        "gte": 100,
        "lte": 300
      }
    }
  }
}

在这里插入图片描述

gt: 大于
gte: 大于等于
lt: 小于
lte: 小于等于

小结:

在这里插入图片描述

5、地理查询

根据经纬度查询。常见的使用场景包括:

  • 携程:搜索我附近的酒店
  • 滴滴:搜索我附近的出租车
  • 微信:搜索我附近的人

在这里插入图片描述

geo_bounding_box:

查询geo_point值落在某个矩形范围的所有文档

// geo_bounding_box查询
GET /indexName/_search
{
  "query": {
    "geo_bounding_box": {
      "FIELD": {
        "top_left": {
          "lat": 31.1,
          "lon": 121.5
        },
        "bottom_right": {
          "lat": 30.9,
          "lon": 121.7
        }
      }
    }
  }
}

如下图,蓝色地标为一个个酒店,落在矩形之内的即是符合要求的:

在这里插入图片描述

geo_distance:

查询到指定中心点小于某个距离值的所有文档

// geo_distance 查询
GET /indexName/_search
{
  "query": {
    "geo_distance": {
      "distance": "15km",
      "FIELD": "31.21,121.5"
    }
  }
}
// "31.21,121.5"是我的位置坐标
//FIELD则写酒店位置字段,即location
//以上即查出以我为中心,附近15KM内的酒店

在这里插入图片描述

示例:

GET /hotel/_search
{
  "query": {
    "geo_distance": {
      "distance": "5km",
      "location": "31.21,121.5"
    }
  }
}

在这里插入图片描述

6、复合查询–相关性打分算法

复合(compound)查询就是将上面这几种简单查询组合起来,实现更复杂的搜索逻辑。

相关性打分算法

在这里插入图片描述

在这里插入图片描述
三个文档里都有如家,大家都加一定得分,那这个词意义不大,即它相应的权重应该低一点,因此,TF-IDF算法:

在这里插入图片描述
TF-IDF算法受词频影响太大,
在这里插入图片描述

因此elasticsearch5.0后,相关性打分算法采用BM25算法:

在这里插入图片描述

小结:
在这里插入图片描述

当然可以人为控制文档相关性算分,从而控制文档排名(fuction score:算分函数查询),例如百度竞价,谁出价高谁就在搜索第一位。

在这里插入图片描述

7、复合查询之Function Score Query

使用 function score query,可以修改文档的相关性算分(query score),根据新得到的算分排序。

在这里插入图片描述

关键点:

  • 过滤条件:哪些文档需要算分加权
  • 算分函数:与query score运算后得到新的算分
  • 加权模式:算分函数的结果和query score如何运算,相乘、相加、替代、求和、取平均…
案例:给"如家"这个品牌的酒店排名靠前一些

比如搜外滩附近的酒店,先不给任何品牌人工加分,看下结果:

在这里插入图片描述
接下来过滤品牌为如家的,并给对应的文档加分,算分函数用weight,加权模式为默认的相乘:

GET /hotel/_search
{
  "query": {
    "function_score": {
      "query": {// ... },
      "functions": [ // 算分函数
        {
          "filter": { // 满足的条件,品牌必须是如家
            "term": {
              "brand": "如家"
            }
          },
          "weight": 2 // 算分权重为2
        }
      ],
      "boost_mode": "sum"
    }
  }
}

在这里插入图片描述

可以看到外滩如家由3.8变成了38,一跃成为第一。

小结:

在这里插入图片描述

8、复合查询之BooleanQuery

布尔查询是一个或多个查询子句的组合(和Function Score Query不一样,不是用来修改算分的)。子查询的组合方式有:

  • must:必须匹配must[ ]里的每个子查询,类似“与”
  • should:选择性匹配子查询,类似“或”
  • must_not:必须不匹配,不参与算分,类似“非”,常用于”不高于"、"不低于"场景
  • filter:必须匹配,不参与算分

适用场景如:

在这里插入图片描述

对于不参与算分的查询,就放到must_not或者filter,减少不必要的算分,以提高查询性能。

GET /hotel/_search
{
  "query": {
    "bool": {   //类型为bool
      "must": [
        {"term": {"city": "上海" }}
      ],
      "should": [
        {"term": {"brand": "皇冠假日" }},
        {"term": {"brand": "华美达" }}  //这两个品牌都可以
      ],
      "must_not": [
        { "range": { "price": { "lte": 500 } }} //小于等于500取反,即大于500
      ],
      "filter": [
        { "range": {"score": { "gte": 45 } }}   //用户评分必须大于45分
      ]
    }
  }
}

需求:搜索名字包含“如家”,价格不高于400,在坐标31.21,121.5周围10km范围内的酒店。

GET /hotel/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match": {"name": "如家"}
        }
      ],
      "must_not": [
        {
          "range": { "price": {"gt": 400}}
        }
      ],
      "filter": [
        {
          "geo_distance": {
            "distance": "10km", "location": {"lat": 31.21, "lon": 121.5}
          }
        }
      ]
    }
  }
}

运行:

在这里插入图片描述
将filter中的查询搬到must:

在这里插入图片描述


小结:
在这里插入图片描述

到此,可以使用DSL,来从海量数据中检索出我需要的数据了!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/35221.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java版本工程项目管理系统源码

Java版工程项目管理系统 Spring CloudSpring BootMybatisVueElementUI前后端分离 功能清单如下: 首页 工作台:待办工作、消息通知、预警信息,点击可进入相应的列表 项目进度图表:选择(总体或单个)项目显示…

Librosa库——语音识别,语音音色识别训练及应用

很多同学以为语音识别是非常难的,其实并不然,起初我也是这么认为,但后来发现语音识别是最简单的,因为同学们可能不知道Python有一个音频处理库Librosa,这个库非常的强大,可以进行音频处理、频谱表示、幅度转…

CSS(持续更新!~)

二: 进阶: 只打算起到装饰作用的图片就建议就背景图片 块级标签就是:独占一行的标签(比如div)并且可以加宽加高 行内元素:就是不会独占一行的标签(比如a,span等等,不可以…

TensorFlow项目练手(二)——猫狗熊猫的分类任务

项目介绍 通过猫狗熊猫图片来对图片进行识别,分类出猫狗熊猫的概率,文章会分成两部分,从基础网络模型->利用卷积网络经典模型Vgg。 基础网络模型 基础的网络模型主要是用全连接层来分类,比较经典的方法,也是祖先…

MinGW编译OpenCV 过程记录

1.下载源码opencv-3.4.10.zip ,可以在OpenCV官网下载Releases - OpenCV 解压缩如下: 2.下载Mingw64工具,需要支持posix 并设置系统环境目录,下载的文件名x86_64-8.1.0-release-posix-sjlj-rt_v6-rev0.7z (可以在网上找) 3.使用Cmake工具构建…

微信小程序个人中心展示样式(2)

这是之前的详细的看这里 因为这是好多年前写的了,好多人私信我代码有问题。正好今天有时间简单的还原下代码 话不多说先看图(图片样式自己搞奥~~~~我也好久没弄了这就是个参考demo) 以下是一个使用微信小程序开发的个人中心展示详情的示例: 在微信开发…

基于PyQt5的桌面图像调试仿真平台开发(10)色彩矩阵

系列文章目录 基于PyQt5的桌面图像调试仿真平台开发(1)环境搭建 基于PyQt5的桌面图像调试仿真平台开发(2)UI设计和控件绑定 基于PyQt5的桌面图像调试仿真平台开发(3)黑电平处理 基于PyQt5的桌面图像调试仿真平台开发(4)白平衡处理 基于PyQt5的桌面图像调试仿真平台开发(5)…

解决问题:通配符的匹配很全面, 但无法找到元素 ‘context:component-scan‘ 的声明~

异常描述如下&#xff1a; 产生异常原因&#xff1a; 因为在配置文件中没有找到<context:component-scan />元素的声明&#xff0c;解决办法&#xff1a;将XML配置文件中的声明改为下述代码&#xff1a; <beans xmlns"http://www.springframework.org/schema/b…

01 | 一条 SQL 查询语句是如何执行的?

以下内容出自 《MySQL 实战 45 讲》 一条 SQL 查询语句是如何执行的&#xff1f; 下面是 MySQL 的基本架构示意图&#xff0c;从中可以清楚地看到 SQL 语句在 MySQL 的各个功能模块中的执行过程。 大体来说&#xff0c;MySQL 可以分为 Server 层和存储引擎层两部分。 Server …

Python如何批量将图片以超链接的形式插入Excel

【研发背景】 在日常办公中&#xff0c;我们经常需要将图片插入进Excel中&#xff0c;但是如果插入的图片太多的话&#xff0c;就会导致Excel的文件内存越来越大&#xff0c;但是如果我直插入图片的路径&#xff0c;或者只是更改某一列的数据设置为超链接&#xff0c;这样的话&…

Spring底层核心架构

Spring底层核心架构 相关的配置类 1. user类 package com.zhouyu.service;import org.springframework.stereotype.Component;public class User { }2. AppConfig类 package com.zhouyu;import org.springframework.context.annotation.*; import org.springframework.sched…

open*w*r*t +dnspod ddns动态解析ipv6 远程控制移动内网路由器

1.修改openw*r*t web https管理端口为8443 修改ipv6 https 监听端口list listen_https [::]:8443 cd /etc/config/vi uhttpdvi /etc/config/uhttpdconfig uhttpd mainlist listen_http 0.0.0.0:80list listen_http [::]:80list listen_https 0.0.0.0:443list listen_https [:…

前端Vue一款基于canvas的精美商品海报生成组件 根据个性化数据生成商品海报图 长按保存图片

前端Vue一款基于canvas的精美商品海报生成组件 根据个性化数据生成商品海报图 长按保存图片&#xff0c;下载完整代码请访问uni-app插件市场地址&#xff1a;https://ext.dcloud.net.cn/plugin?id13326 效果图如下: # cc-beautyPoster #### 使用方法 使用方法 <!-- pos…

Java虚拟机(JVM)、垃圾回收器

一、Java简介 1、Java开发及运行版本 JRE(Java Runtime Environment&#xff0c;运行环境) 所有的程序都要在JRE下才能够运行。包括JVM和Java核心类库和支持文件。JDK(Java Development Kit&#xff0c;开发工具包) 用来编译、调试Java程序的开发工具包。包括Java工具(javac/…

【Redis】3、Redis 作为缓存(Redis中的穿透、雪崩、击穿、工具类)

目录 一、什么是缓存二、给业务添加缓存&#xff08;减少数据库访问次数&#xff09;三、给店铺类型查询业务添加缓存(1) 使用 String 类型(2) 使用 List 类型 四、缓存的更新策略(1) 主动更新(2) 最佳实现方案(3) 给查询商铺的缓存添加超时剔除和主动更新的策略① 存缓存&…

泰迪智能科技基于产业技能生态链学生学徒制的双创工作室--促进学生高质量就业

据悉&#xff0c;6月28日&#xff0c;广东省人力资源和社会保障厅在广东岭南现代技师学院举行广东省“产教评”技能生态链建设对接活动。该活动以“新培养、新就业、新动能”为主题&#xff0c;总结推广“产教评”技能人才培养新模式&#xff0c;推行“岗位培养”学徒就业新形式…

Tomcat多实例部署

1、关闭防火墙&#xff0c;将安装 Tomcat 所需软件包传到/opt目录下2、安装好 JDK3、设置JDK环境变量4、安装 tomcat5、配置 tomcat 环境变量6、修改 tomcat2 中的 server.xml 文件&#xff0c;要求各 tomcat 实例配置不能有重复的端口号7、修改各 tomcat 实例中的 startup.sh …

更便捷的人体三维模型制作方法

人体三维模型是一种以计算机辅助设计技术为基础的创新工具&#xff0c;它在医学、生物学、运动学等领域具有广泛的应用价值。这种模型通过将人体的形态、结构与功能等要素进行数字化处理和计算&#xff0c;能够以立体图像的形式展现出来。它可以精确地模拟人体的各种部位&#…

【C】数据在内存中的存储

前言 > 在内存中&#xff0c;整型和浮点型存储的方式是不同的&#xff0c;从内存中读取的方式也是有所差异的&#xff0c;这篇文章主要介绍整型和浮点型在内存中存储的方式。 整型在内存中的存储 计算机中有符号数有3种表示方式&#xff1a; 原码&#xff1a;直接将二进制按…

查看虚拟机主机IP

虚拟机主机ip 文章目录 ifconfigip addr图形化界面 ifconfig 失败了 ip addr 图形化界面
最新文章