MySQL的Json类型字段IN查询分组和优化方法

前言 

       MySQL从5.7的版本开始支持Json后,我时常在设计表格时习惯性地添加一个Json类型字段,用做列的冗余。毕竟Json的非结构性,存储数据更灵活,比如接口请求记录用于存储请求参数,因为每个接口入参不一致,也有不传和空传的等等。

        然而在一些特定场景下,需要用Json字段里的某个键用来In查询,并且需要保证不会造成慢查询的前提下,用该键对整个查询结果分组。因为这张表属于是高频储存的表,数据相对庞大,下面先看看SQL查询和放到业务里的查询时间。

场景介绍

        数据表主要存储来自客户端的请求信息,如客户端标识,接口名,渠道,来源,IP,入参等等。而场景是需要对某个页面下某个物品的请求总数和请求用户数,也就是要将访问数和访问用户数作为字段字段方式拼接到物品上。到这里可能很多人会说,在指定页埋点计数式更新物品两个字段就可以了,干嘛这么麻烦去明细表里统计。

        如此的做法,就真的是因为懒,毕竟有时功能不是很重要就没必要为此多创建一张与库里有重叠性质的表,下次去掉这部分时,多一张给后来者新增一份负担,看着没用的表又不敢删。好了扯远了,下面就开始用SQL和业务代码测试查询效果和后面优化方法吧。

SQL查询

SELECT json_extract(params,'$.item_id') as item_id, count(id), page_name, params, COUNT(DISTINCT cookie_md5) FROM `temp_record` WHERE  `page_name` IN ('api/GoodsItem/read','api/GoodsItem/readnew','api/GoodsItem/details')  AND ( params->'$.item_id' in (40349,40348,40347,40346,40345,40342,40341,40340,40334,40333,40332,40331,40330,40328,40327,40326,40325,40324,40323,40322,40321,40320,40319,40318,40317,40316,40315,40314,40313,40312,40311,40310,40309,40308,40307,40306,40305,40304,40303,40302,40298,40297,40296,40295,40294,40293,40292,40291,40290,40289) )
GROUP BY (params->'$.item_id')

    当前数据量不多的情况下,查询时间0.56秒,针对条件我先对其中一个字段添加了NORMAL类型索引后,查询时间在0.07和0.19间跳动。虽然速度提升了一点,但是这里还有一个关键的查询,就是Json里的item_id的键,既作为条件又作为分组参。

    但是索引只能使用字段,Json字段里的键是不可能加进去的。虽然但是有一种曲线设置的方式,就是提取Json里的item_id为一个虚拟字段,然后将该虚拟字段设置为索引,于是就开始操作了。

优化方法

1. 图形创建虚拟字段

以下用Navicat for MySQL为例,新建字段,勾选 “虚拟”, 虚拟类型 “VIRTUAL”, 表达式 cast(json_extract(`params`,'$.item_id') as signed),也就是从Json提取“item_id”。

2. 命令创建虚拟字段

ALTER TABLE `temp_record`
	ADD COLUMN `item_id` int(11) GENERATED ALWAYS AS (cast(json_extract(`params`,'$.item_id') as signed));

3. 设置索引

进入设置,像添加普通字段的方式将item_id设置为普通索引。

4. 优化查询结果

SELECT item_id, count(id), page_name, params, COUNT(DISTINCT cookie_md5) FROM `temp_record` WHERE  `page_name` IN ('api/GoodsItem/read','api/GoodsItem/readnew','api/GoodsItem/details')  AND ( item_id in (40349,40348,40347,40346,40345,40342,40341,40340,40334,40333,40332,40331,40330,40328,40327,40326,40325,40324,40323,40322,40321,40320,40319,40318,40317,40316,40315,40314,40313,40312,40311,40310,40309,40308,40307,40306,40305,40304,40303,40302,40298,40297,40296,40295,40294,40293,40292,40291,40290,40289) )
GROUP BY (params->'$.item_id')

修改后,查询时间稳定在0.05秒上下一点,可以说相较之前是快了10倍,分组中其实也是可以改成item,但是数据里有字符串的item_id索引为了兼容这种类型,分组还是用的JSON取值方式,速度影响不大。

PHP代码

1. 统计(仅作参考)

public static function clickCount($goodsItemIds = [])
{
	$pageName = [
		'api/GoodsItem/read',
		'api/GoodsItem/readnew',
		'api/GoodsItem/details'
	];
	$goodsItemIds = implode(",", $goodsItemIds);

	$where[] = ['page_name', 'in', $pageName];
	//$where[] = ['params->item_id', 'in', $goodsItemIds];

	$data = Db::name('temp_record')->field("item_id,count(id) as pv, count(DISTINCT cookie_md5) as uv")
		->where($where)->whereRaw("params->'$.item_id' in ($goodsItemIds)")->group("params->item_id")
		->select();

	$data && $data = array_column($data, null, 'item_id');

	return $data;
}

2. 明细(仅作参考)

public static function clickRecord($itemId = 0, $page = 1, $size = 20)
{
	$result['count'] = 0;
	$result['list'] = [];

	$pageName = [
		'api/GoodsItem/read',
		'api/GoodsItem/readnew',
		'api/GoodsItem/details'
	];

	$where[] = ['page_name', 'in', $pageName];

	$field = ["from_unixtime(day_time, '%Y-%m-%d') as day_time, count(id) as clicks,
	count(DISTINCT cookie_md5) as user_clicks"];

	$result['list'] = Db::name('temp_record')
		->field($field)
		->where($where)->whereRaw("params->'$.item_id' = $itemId")
		->group("day_time")
		->page($page, $size)
		->order('day_time desc')
		->select();

	$result['count'] = Db::name('temp_record')->field($field)->where($where)
		->whereRaw("params->'$.item_id' = $itemId")->group("day_time")->count();

	return $result;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/83444.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【TypeScript】基础类型

安装 Node.js 环境 https://nodejs.org/en 终端中可以查到版本号即安装成功。 然后,终端执行npm i typescript -g安装 TypeScript 。 查到版本号即安装成功。 字符串类型 let str:string "Hello"; console.log(str);终端中先执行tsc --init&#xf…

第二届人工智能与智能信息处理技术国际学术会议(AIIIP 2023)

第二届人工智能与智能信息处理技术国际学术会议(AIIIP 2023) 2023 2nd International Conference on Artificial Intelligence and Intelligent Information Processing 第二届人工智能与智能信息处理技术国际学术会议(AIIIP 2023&#xf…

ATTCK实战系列——红队实战(一)

目录 搭建环境问题 靶场环境 web 渗透 登录 phpmyadmin 应用 探测版本 写日志获得 webshell 写入哥斯拉 webshell 上线到 msf 内网信息收集 主机发现 流量转发 端口扫描 开启 socks 代理 服务探测 getshell 内网主机 浏览器配置 socks 代理 21 ftp 6002/700…

CentOS 8.5修改安装包镜像源

1 备份原配置 cd /etc/yum.repos.d mkdir backup mv *.repo backup/2 下载镜像源 2.1 使用wget下载 wget http://mirrors.aliyun.com/repo/Centos-8.repo2.2 使用curl下载 我是安装的最小版本的系统,默认只有curl curl使用方法:https://www.ruanyife…

为什么爬虫要用高匿代理IP?高匿代理IP有什么优点

只要搜代理IP,度娘就能给我们跳出很多品牌的推广,比如我们青果网路的。 正如你所看到的,我们厂商很多宣传用词都会用到高匿这2字。 这是为什么呢?高匿IP有那么重要吗? 这就需要我们从HTTP代理应用最多最广的&#xf…

基于MATLAB开发AUTOSAR软件应用层Code mapping专题-part 2 Inport和Outports 标签页介绍

上篇我们介绍了Function页的内容,这篇我们介绍Inports和Outports页的内容,这里我们再次强调一个概念,code mapping是以simulink的角度去看的,就是先要在模型中建立simulink模块,在code mapping里映射他要对应的autosar的元素,之后生成代码时的c语言的名字是以Autosar的元…

【MySQL】好好学习一下InnoDB中的页

文章目录 一. 前言二. 从宏观层面看页三. 页的基本内容3.1 页的数据结构3.2 用户空间内的数据行结构3.3 页目录 四. 问题集4.1 索引 和 数据页 有什么区别4.2 页的大小是什么决定的4.3 页的大小对哪些情况有影响4.4 一般情况下说的链表有哪几个4.5 如果页的空间满了怎么办4.6 如…

m3u8视频怎么保存到本地?这个小妙招了解下

m3u8是一种视频文件格式,通常用于流媒体服务,可以将大型视频文件分割成较小的TS分段进行传输,从而使得视频的传输更加流畅和高效。。m3u8文件包含了一个视频播放列表,其中包含了所有的TS分段的URL地址,以及每个分段的时…

设计模式之代理模式(Proxy)的C++实现

1、代理模式的提出 在组件的开发过程中,有些对象由于某种原因(比如对象创建的开销很大,或者对象的一些操作需要做安全控制,或者需要进程外的访问等),会使Client使用者在操作这类对象时可能会存在问题&…

企业百家号蓝V认证后,百度营销基木鱼落地页如何嵌入百家号中

首先搭建百度营销基木鱼落地页 在我们的百度营销后台,点击基木鱼跳转至百度营销基木鱼页面,在我的站点位置,可以创建H5站点,PC站点等,创建完成后可以点击复制基木鱼落地页的链接。 注意事项 1、企业百家号需要进行…

每天一道leetcode:127. 单词接龙(图论困难建图广度优先遍历)

今日份题目&#xff1a; 字典 wordList 中从单词 beginWord 和 endWord 的 转换序列 是一个按下述规格形成的序列 beginWord -> s1 -> s2 -> ... -> sk&#xff1a; 每一对相邻的单词只差一个字母。 对于 1 < i < k 时&#xff0c;每个 si 都在 wordList 中…

【Apollo】自动驾驶感知——毫米波雷达

作者简介&#xff1a; 辭七七&#xff0c;目前大一&#xff0c;正在学习C/C&#xff0c;Java&#xff0c;Python等 作者主页&#xff1a; 七七的个人主页 文章收录专栏&#xff1a; 七七的闲谈 欢迎大家点赞 &#x1f44d; 收藏 ⭐ 加关注哦&#xff01;&#x1f496;&#x1f…

docker compose的用法

目录 一、Docker-Compose介绍 1.1 Docker-Compose的概述 1.2 Docker-Compose 用来实现Docker容器快速编排 1.3 Docker-compose模板文件简介 二、YAML简介 2.1 YAML的概述 2.2 YAML的基本语法规则 2.3 YAML支持的数据架构 三、配置内部常用字段 四、Docker-compose 常…

Javaweb基础学习(3)

Javaweb基础学习 web核心介绍一、HTTP1.1 HTTP介绍1.2、HTTP请求数据格式1.3、HTTP响应数据格式 二、Tomcat2.1 简介2.2 基本使用2.3 Tomcat配置2.4 Tomcat部署项目2.5 Web项目结构2.6 创建Maven Web项目 三、Servlet3.1、Servlet简介&快速入门3.2 创建Servlet步骤3.3 Serv…

计算机网络-物理层(三)-信道的极限容量

计算机网络-物理层(三)-信道的极限容量 当信号在信道中传输失真不严重时&#xff0c;在信道的输出端&#xff0c;这些信号可以被识别 当信号在信道中&#xff0c;传输失真严重时&#xff0c;在信道的输出端就难以识别 造成失真的因素 码元传输速率信号传输距离噪声干扰传输媒…

小红书kol投放怎么做,kol投放工作规划!

作为分享类平台&#xff0c;小红书有着众多的kol类型。但是该如何合理的使用这些达人&#xff0c;达到品牌传播的目的&#xff0c;就需要一份详尽的计划。今天就跟大家分享一下&#xff0c;小红书kol投放怎么做&#xff0c;kol投放工作规划&#xff01; 什么是kol投放 kol投放即…

【HarmonyOS】codelab在hvigor版本2.4.2上无法运行问题

【关键字】 HarmonyOS、codelab、hvigor 【问题描述】 有cp反馈集成鸿蒙codelab报错。 下载音乐专辑示例文件&#xff08;一次开发&#xff0c;多端部署-音乐专辑&#xff08;ArkTS&#xff09; (huawei.com)&#xff09;后构建项目&#xff0c;显示找不到2.5.0的hvigor。 …

SpringBoot + Mybatis多数据源

一、配置文件 spring: # datasource: # username: root # password: 123456 # url: jdbc:mysql://127.0.0.1:3306/jun01?characterEncodingutf-8&serverTimezoneUTC # driver-class-name: com.mysql.cj.jdbc.Driverdatasource:# 数据源1onedata:jdbc-url: j…

cdh6.3.2 Flink On Yarn taskmanager任务分配倾斜问题的解决办法

业务场景&#xff1a; Flink On Yarn任务启动 组件版本&#xff1a; CDH&#xff1a;6.3.2 Flink&#xff1a;1.13.2 Hadoop&#xff1a;3.0.0 问题描述&#xff1a; 在使用FLink on Yarn调度过程中&#xff0c;发现taskmanager总是分配在集中的几个节点上&#xff0c;集群…

人脸老化预测(Python)

本次项目的文件 main.py主程序如下 导入必要的库和模块&#xff1a; 导入 TensorFlow 库以及自定义的 FaceAging 模块。导入操作系统库和参数解析库。 定义 str2bool 函数&#xff1a; 自定义函数用于将字符串转换为布尔值。 创建命令行参数解析器&#xff1a; 使用 argparse.A…