MySQL连接的原理⭐️4种优化连接的手段性能提升240%

MySQL连接的原理⭐️4种优化连接的手段性能提升240%🚀

前言

上两篇文章我们说到MySQL优化回表的三种方式:索引条件下推ICP、多范围读取MRR与覆盖索引

MySQL的优化利器⭐️索引条件下推,千万数据下性能提升273%🚀

MySQL的优化利器⭐️Multi Range Read与Covering Index是如何优化回表的?

这篇文章我们来聊聊MySQL中连接的原理以及连接的四种优化手段

为了更好的讲述文章内容,我们准备的两张表

一张是ICP文章中用到的学生表,学生表中有联合索引(age,studnet_name)

CREATE TABLE `student` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT,
  `student_name` varchar(20) DEFAULT NULL COMMENT '名称',
  `age` smallint(6) DEFAULT NULL COMMENT '年龄',
  `info` varchar(30) DEFAULT NULL COMMENT '信息',
  PRIMARY KEY (`id`),
  KEY `idx_age_name` (`age`,`student_name`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

另一张座位表用于关联学生表,标识某个座位是某个学生的,座位与学生的关系是多对一(比如学生菜菜有多个座位)

CREATE TABLE `seat` (
  `seat_id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '座位ID',
  `seat_code` char(10) DEFAULT NULL COMMENT '座位码',
  `student_id` bigint(20) DEFAULT NULL COMMENT '座位关联的学生ID',
  PRIMARY KEY (`seat_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

连接原理

关联多张表的查询叫做联表查询(联表又叫连接),常见的连接有:左连接、右连接、内连接

在左连接中,left join左边的表为驱动表,右边的表为被驱动表

当发生连接查询时,先在驱动表中开始寻找记录,当找到满足条件的记录,再去被驱动表中寻找满足关联条件on的记录

SELECT
    s1.*,
    s2.seat_code 
FROM
    student s1
    LEFT JOIN seat s2 ON s1.id = s2.student_id 
WHERE
    s1.age = 18 
    AND s1.student_name LIKE 'c%' 
;

比如这个例子中执行流程(1-3是循环的步骤,直到不满足条件):

  1. 先去学生表student的(age,studnet_name)联合索引中寻找满足条件的记录
  2. 拿到这条记录的id去被驱动表seat中找到满足关联条件的记录(ON s1.id = s2.student_id
  3. 将找到的记录放入结果集中,再去循环步骤1

image.png

直到图中第四条记录(18,ddseat,25)不满足查询条件s1.age = 18 AND s1.student_name LIKE 'c%'时则退出循环

连接寻找的过程是不是就像双层for循环一样?驱动表为外层循环,被驱动表为内存循环,伪代码如下:

//驱动表student
for(long studentIndex = initStudentIndex; studentIndex < student.size(); studentIndex++){
    //如果不满足条件就退出 
    if(){
       break;   
    }    

    //满足条件就去访问被驱动表seat
    for(long seatIndex = initSeatIndex; seatIndex < seat.size(); seatIndex++){
        //如果不满足条件就退出(继续循环驱动表)
        if(){
            break;
        }

        //在被驱动表中找到满足关联的条件就加入结果集
        result.add(XX);
    }

}

通过流程与代码我们可以分析:访问驱动表时,会访问多次被驱动表(驱动表每有一条满足条件的记录就要去访问被驱动表)

因此在设计上应该尽量选择驱动表为小表,用小表驱动大表

当使用内连接时,由优化器决定哪个表是驱动表,哪个表是被驱动表

当两个表时相当于双层循环,三个表时相当于三层循环,联表越多时间复杂度呈指数级别增长,联表的性能开销会非常大

优化连接

如果想要优化联表的开销有什么手段呢?

通过刚刚的分析,我们可以通过减少访问被驱动表的次数、加快查询被驱动表等方面来进行优化连接

索引

说到加快查询速度, 第一个想到的就是建立索引

为被驱动表关联字段加上索引,优化查询被驱动表的速度

以这条SQL为例,就是在seat表中加上(student_id)索引

SELECT
    s1.*,
    s2.seat_code 
FROM
    student s1
    LEFT JOIN seat s2 ON s1.id = s2.student_id 
WHERE
    s1.age = 18 
    AND s1.student_name LIKE 'c%' 
;

当在驱动表中找到记录后,去被驱动表的(student_id)索引寻找满足条件的记录

image.png

被驱动表(student_id)索引会对student_id排序,当student_id相同时对主键seat_id排序

索引student_id有序,等值比较查找会很快,从而优化查询被驱动表的速度

SELECT
    s1.*,
    s2.seat_code 
FROM
    student s1
    left JOIN seat s2 ON s1.id = s2.student_id 
WHERE
    s1.age = 18 
    AND s1.student_name LIKE 'c%'
> OK
> 时间: 2.063s

执行计划中显示,被驱动表用到student_id索引

image.png

但是还会出现回表的问题,由于(student_id)索引中不存在要查询的seat_code字段,还要回表查询聚簇索引

也可以通过在索引中增加seat_code列使用覆盖索引解决,回表相关知识前两篇文章说过,这里就不过多叙述

Block Nested Loop (BNL)

创建索引是有代价的,不仅查询时需要分析使用哪个索引的成本低,在进行写操作时还要去维护索引

因此并不是每连接一张表就要为被驱动表建立索引,在用不上索引的情况下,该如何优化连接的开销呢?

MySQL提供Block Nested Loop算法对被驱动表无法使用索引的场景,减少访问被驱动表的次数来进行优化

Block Nested Loop 算法是使用一块缓冲池(join buffer)记录满足驱动表的记录,将缓冲池装满后再去被驱动表中寻找

在被驱动表中寻找时,每遍历一条记录就用join buffer中存储的驱动表记录来进行匹配,满足关联条件就放入结果集中

image.png

SET optimizer_switch='block_nested_loop=on'用于开启BNL算法(默认开启)

开启BNL算法耗时5.215s (测试前记得把被驱动表的student_id索引删除)

SET optimizer_switch='block_nested_loop=on'
> OK
> 时间: 0.053s


SELECT
    s1.*,
    s2.seat_code 
FROM
    student s1
    left JOIN seat s2 ON s1.id = s2.student_id 
WHERE
    s1.age = 18 
    AND s1.student_name LIKE 'c%'
> OK
> 时间: 5.215s

执行计划的附加信息说明使用join buffer,算法为BNL

image.png

将BNL算法关闭测试原理中描述的双层循环,耗时12.804s

SET optimizer_switch='block_nested_loop=off'
> OK
> 时间: 0.048s


SELECT
    s1.*,
    s2.seat_code 
FROM
    student s1
    left JOIN seat s2 ON s1.id = s2.student_id 
WHERE
    s1.age = 18 
    AND s1.student_name LIKE 'c%'
> OK
> 时间: 12.804s

执行计划的附加信息中说明没用join buffer

image.png

从原来的满足一条记录就去寻找一遍被驱动表变成收集多条记录后再去访问被驱动表

如果使用的缓存池够大,还可以将驱动表中满足条件的记录装完再去访问被驱动表,相当于只访问一次

join buffer存储需要查询的列和查询条件的列,因此不要使用select *避免浪费join buffer的空间

默认情况下join buffer 占用262144 B(256KB),如果不能使用索引优化连接的情况下,可以把join buffer 设置大一些 set global join_buffer_size = 262144

Batched Key Access (BKA)

在Block Nested Loop 算法是用于优化被驱动表中不能使用索引的场景

而Batched Key Access BKA算法用于优化被驱动表上能使用索引的场景

在驱动表(age,student_name)索引中满足条件的记录,id不一定是有序的,使用乱序的id去被驱动表中查找就可能发生随机IO

BKA算法是基于MRR的,对驱动表结果的id进行排序后,再去被驱动表中查找

image.png

不懂MRR的同学可以查看上篇文章(在文章前言有链接)

由于MySQL对使用MRR的成本太高,如果想使用BKA算法,还需要关闭基于成本判断是否使用MRR

SET optimizer_switch='mrr=on,mrr_cost_based=off,batched_key_access=on';

mrr=on 开启mrr (默认开启)

mrr_cost_based=off 关闭基于成本判断是否使用MRR (默认开启)

batched_key_access 开启BKA (默认关闭)

测试使用BKA算法耗时1.533s

SET optimizer_switch = 'mrr=on,mrr_cost_based=off,batched_key_access=on'
> OK
> 时间: 0.049s


SELECT
    s1.*,
    s2.seat_code 
FROM
    student s1
    LEFT JOIN seat s2 ON s1.id = s2.student_id 
WHERE
    s1.age = 18 
    AND s1.student_name LIKE 'c%'
> OK
> 时间: 1.533s

执行计划中显示,驱动表使用MRR,被驱动表使用student_id索引和BKA算法

image.png

hash join

关联条件往往是等值比较的

散列表(哈希表)是一种非常适合寻找等值比较的数据结构

在MySQL高版本中8.0默认使用 hash 的 join buffer,通过空间换时间的方式来加速查找被驱动表

image.png

测试总结

本篇文章使用该SQL对多种优化连接的方式进行测试并将结果进行汇总分析其特点(暂时还没测试hash join)

SELECT
    s1.*,
    s2.seat_code 
FROM
    student s1
    LEFT JOIN seat s2 ON s1.id = s2.student_id 
WHERE
    s1.age = 18 
    AND s1.student_name LIKE 'c%' 
;
方式耗时(单位:秒)优点缺点
无优化的嵌套循环查询12.804好像没有优点...逻辑清晰算吗时间复杂度指数级别,特别慢
使用BNL算法的join buffer优化5.215使用join buffer减少访问被驱动表次数增加join buffer缓冲池的开销
被驱动表增加索引2.063往被驱动表关联条件的列建立索引,将查询关联条件从无序查询优化为有序查询由于ID无序查询被驱动表会出现随机IO
使用BKA算法优化1.533s使用BKA算法将访问被驱动表索引的随机IO转换成顺序IO需要被驱动表建立索引和使用MRR,默认情况下使用MRR成本估算很大

默认情况下就算不用索引也不会使用无优化的嵌套查询,最少也是使用Join Buffer 5.215s

为被驱动表关联列增加索引后,相比于Join Buffer查询性能提升近150%

使用BKA算法优化后查询速度达到1.533s,相比于Join Buffer查询性能提升近240%

总结

连接的原理就是循环嵌套查询,根据驱动表满足查询条件的记录数量去多次访问被驱动表,因此连接时需要小表驱动大表;内连接Inner Join由优化器来选择驱动表

多表连接的时间复杂度呈指数级别,开销非常大,通过减少访问被驱动表数量、加速访问被驱动表等方面进行优化

在被驱动表使用不到索引的场景下,会使用缓冲池Join Buffer的BNL算法来存储驱动表满足条件记录,相当于多条记录一起访问被驱动表,以此来减少访问被驱动表次数

Join Buffer中存储查询需要的列和查询条件的列,因此不要使用select *避免浪费Join Buffer,在不能使用索引的场景下可以增大Join Buffer的空间

为被驱动表关联条件的列建立索引可以加快访问被驱动表,将访问被驱动表聚簇索引的无序查询优化为二级索引的有序查询,但满足条件的驱动表记录中关联条件的列并不一定有序,来查被驱动表时可能是随机IO

BKA算法基于被驱动表的关联条件列建立索引和使用MRR,以此对驱动表中满足条件的列排序,将访问被驱动表时的随机IO优化为顺序IO

默认下BKA算法不开启并且MRR预估成本较大,如果确认访问被驱动表时的随机IO开销太大,可以关闭基于成本使用MRR和开启BKA算法

在MySQL 8.0高版本中Join Buffer默认使用hash join,由于关联条件常是等值比较,数据结构哈希表非常适合这种场景下的查询

最后(不要白嫖,一键三连求求拉~)

本篇文章被收入专栏 由点到线,由线到面,构建MySQL知识体系,感兴趣的同学可以持续关注喔

本篇文章笔记以及案例被收入 gitee-StudyJava、 github-StudyJava 感兴趣的同学可以stat下持续关注喔~

有什么问题可以在评论区交流,如果觉得菜菜写的不错,可以点赞、关注、收藏支持一下~

关注菜菜,分享更多干货,公众号:菜菜的后端私房菜

本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/112212.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

函数式接口详解(Java)

函数式接口详解&#xff08;Java&#xff09;_函数式接口作为参数_凯凯凯凯.的博客-CSDN博客 函数式接口&#xff1a;有且仅有一个抽象方法的接口 Java中函数式编程体现就是Lambda表达式&#xff0c;所以函数式接口就是可以适用于Lambda使用的接口 只有确保接口中仅有一个抽…

【设计模式】第7节:创建型模式之“建造者模式”

Builder模式&#xff0c;中文翻译为建造者模式或者构建者模式&#xff0c;也有人叫它生成器模式。 在创建对象时&#xff0c;一般可以通过构造函数、set()方法等设置初始化参数&#xff0c;但当参数比较多&#xff0c;或者参数之间有依赖关系&#xff0c;需要进行复杂校验时&a…

Springboot 集成 Seata

Seata 是一款开源的分布式事务解决方案&#xff0c;致力于提供高性能和简单易用的分布式事务服务。Seata 将为用户提供了 AT、TCC、SAGA 和 XA 事务模式&#xff0c;为用户打造一站式的分布式解决方案。Seata官网 1.找到适合的Seata版本 参考&#xff1a;SpringCloudAlibaba S…

Linux学习之进程二

目录 进程状态 R (running)运行状态与s休眠状态&#xff1a; disk sleep&#xff08;深度睡眠状态&#xff09; T (stopped)&#xff08;暂停状态&#xff09; t----tracing stop(追踪状态) X死亡状态&#xff08;dead&#xff09; Z(zombie)-僵尸进程 孤儿进程 进程优…

python捕获异常和scapy模块的利用

Python捕获异常 ​ 当程序运行时&#xff0c;因为遇到未知的错误而导致中止运行&#xff0c;便会出现Traceback 消息&#xff0c;打印异常。异常即是一个事件&#xff0c;该事件会在程序执行过程中发生&#xff0c;影响程序的正常执行。一般情况下&#xff0c;在Python 无法正…

2023年Q3户外装备市场行业分析报告(京东数据分析):同比增长7%,品牌化发展是核心

近年来&#xff0c;户外运动在我国不少地方蓬勃兴起&#xff0c;发展至今&#xff0c;户外运动早已不是聚焦专业领域的小众群体活动&#xff0c;现已发展成为当下热门的大众休闲活动&#xff0c;参与人群愈发广泛&#xff0c;而这股热潮也带动着相关产业的发展。 今年Q3&#x…

IT老鸟给开发者升职加薪的小技巧

前言&#xff1a; 升职加薪对大多数人来说都是工作重要动力所在&#xff0c;但总存在“青出于蓝而胜于蓝”&#xff0c;后来人居上的情况。很多人不清楚&#xff0c;自己兢兢业业&#xff0c;任劳任怨&#xff0c;到头来还是得不到领导的重视&#xff0c;身边一起过来的同事都成…

GZ035 5G组网与运维赛题第7套

2023年全国职业院校技能大赛 GZ035 5G组网与运维赛项&#xff08;高职组&#xff09; 赛题第7套 一、竞赛须知 1.竞赛内容分布 竞赛模块1--5G公共网络规划部署与开通&#xff08;35分&#xff09; 子任务1&#xff1a;5G公共网络部署与调试&#xff08;15分&#xff09; 子…

单元测试到底测什么,怎么测?我来告诉你

前言&#xff1a; 以国内互联网的开发节奏&#xff0c;在前端业务项目中全面覆盖单元测试有时显得不太可行&#xff0c;主要是因为以下这些绊脚石&#xff1a; UI 交互复杂&#xff0c;路径难以覆盖全面 工期紧&#xff0c;开发对实践 TDD&#xff0c;BDD 所带来的长远效益没有…

Arduino开发

文章目录 资源Arduino IDE 的使用1. 使能编译以及烧录的LOG&#xff1a;2. 下载配置3. 下载 Arduino指令程序下载步骤通过下载器下载通过串口下载 关于Arduino IDE工程生成的二进制文件对比Tools-->burn bootloader 和 ArduinoISP例程 的区别自带例程 资源 Arduino通过串口…

解决MySQL大版本升级导致.Net(C#)程序连接报错问题

数据库版本从MySQL 5.7.21 升级到 MySQL8.0.21 数据升级完成后&#xff0c;直接修改程序的数据库连接配置信息 <connectionStrings> <add name"myConnectionString" connectionString"server192.168.31.200;uidapp;pwdFgTDkn0q!75;databasemail;&q…

【缓存】Spring全家桶中@CacheEvict无效情况共有以下几种

Spring全家桶中CacheEvict无效情况共有以下几种 一、背景介绍二、原因分析三、解决方案 一、背景介绍 SpringBoot中使用Cacheable注解缓存数据&#xff0c;使用CacheEvict注解删除缓存。但是在项目使用过程中&#xff0c;发现使用CacheEvict注解删除缓存无效。 拓展&#xff…

猪八戒、程序员客栈、码市哪个更好用?

最近有很多程序员伙伴在用接单平台线上兼职&#xff0c;问题也来了&#xff1a;到底哪个更好用嘞? 选取了几个问的比较多的&#xff1a;猪八戒、程序员客栈、码市。进行了一下简单的比较。 优点: 猪八戒 第一&#xff0c;猪八戒的名气是毋庸置疑的。无论是它成立至今的时间…

NB-IOT的粮库挡粮门异动监测装置

一种基于NBIOT的粮库挡粮门异动监测装置,包括若干个NBIOT开门监测装置,物联网后台管理系统,NBIOT低功耗广域网络和用户访问终端;各个NBIOT开门监测装置通过NBIOT低功耗广域网络与物联网后台管理系统连接,物联网后台管理系统与用户访问终端连接.NBIOT开门监测装置能够对粮库挡粮…

索引创建的原则

索引的创建是数据库优化中非常重要的一部分&#xff0c;正确创建索引可以大大提高查询效率。以下是一些创建索引时需要考虑的原则&#xff1a; 根据查询频率创建索引&#xff1a; 频繁用于检索的列&#xff1a; 那些频繁用于查询的列或经常出现在 WHERE、JOIN、ORDER BY 和 GR…

企业如何在自媒体平台推广

自媒体是企业宣传品牌的平台之一&#xff0c;在自媒体平台上企业能够较为自由的决定文案内容发布时间&#xff0c;同时后台也会有专门的数据分析帮助企业了解每一次推广效果&#xff0c;成本可控、数据可查、效果可追踪&#xff0c;还能与用户或者潜在用户互动&#xff0c;进行…

放射影像科PACS系统源码

PACS系统是医院影像科室中应用的一种系统&#xff0c;主要用于获取、传输、存档和处理医学影像。它通过各种接口&#xff0c;如模拟、DICOM和网络&#xff0c;以数字化的方式将各种医学影像&#xff0c;如核磁共振、CT扫描、超声波等保存起来&#xff0c;并在需要时能够快速调取…

从用户角度出发,如何优化大数据可视化体验|北京蓝蓝UI设计公司

作者&#xff1a;蓝蓝设计-鹤鹤 大数据已经成为人们探索世界的新工具。但是&#xff0c;对于普通用户而言&#xff0c;大数据往往比较抽象和难以理解&#xff0c;因此&#xff0c;大数据可视化作为一种非常有效的工具工具被广泛应用。然而&#xff0c;在实际应用中&#xff0c…

前端如何不变形的渲染图片大小和图片上的内容

在做前端项目时可能经常会页面图片大小变形或者压缩的情况&#xff0c;一般情况就是height给100%&#xff0c;width给auto就可以了满足大部分使用情况了。有时候需要做一些比较复杂的功能&#xff0c;比如需要在图片上增加锚点&#xff0c;而且图片在适配各种屏幕大小时&#x…

el-table动态增加列、行数据,俩种方法实现按需选择

需求&#xff1a; 表格数据过多的时候&#xff0c;需要实现动态选择数据的功能&#xff0c;有俩种方法可以按需选择&#xff0c;解决了表格动态选择时闪屏数据抖动问题。 注意&#xff0c;这个添加数据是tableData原本就有的&#xff0c;我做的这个操作类似就是折叠选择展示原有…
最新文章