统计分钟级别的视频在线用户数+列炸裂+repeat函数

统计分钟级别的视频在线用户数

1、原始数据如下:

uid  vid  starttime  endtime
select 'aa' as uid,'v00l' as vid,'2023-10-25 12:00' as starttime,'2023-10-2512:15' as endtime 
union

select 'bb' as uid,'v002' as vid,'2023-10-25 12:05' as starttime,'2023-10-25 12:19' as endtime

结果如下:

 

2、需求分析

  • 将用户看视频的时间拆解到分钟
  • 现在能算出用户看视频的时长(分钟),并且知道用户看视频的开始时间,如果拆解到分钟级别观看记录呢?
  • 肯定涉及到列转行,但是如何拆分成 时长单位(分钟) 个 分钟级别观看记录行? 

3、完整代码如下

3.1、实现一:repeat+explode+row_number()over(partitions by )

--step6、统计每分钟看视频的用户数,并按照时间排序
select 
    each_online_minute,from_unixtime(each_online_minute,'yyyy-MM-dd hh:mm') as minute_lab bel,count(distinct uid) online_uid_cnt 
from
(--step5、形成每个用户看视频的分钟级别的观看记录
   select
        uid,vid,starttime,starttimestamp, endtime, endtimestamp,min_cnt
        ,row_number()over(part: ition by uid,vid,starttime order by endtimestamp) rk
        ,starttimestamp+60*row_number()over(partition by uid,vid,starttime order by endtimest tamp) as each_online_minute 
   
   from
   (--step4、explode列炸裂
       select uid,vid, starttime,starttimestamp ,endtime,endtimestamp, min_cnt,new_repeat 
       from
       (--step3、用repeat产生持续时长(分钟) 个数组
           select uid,vid,starttime,starttimestamp,endtime,endtimestamp,min_cnt,repeat('a,',mir n_cnt-1) as repeat_str 
           from
           (--step2、转化为时间戳,且计算看视频持续时长(分钟)
              select 
                 uid
                 ,vid
                 ,starttime
                 ,unix_timestamp(starttime,'yyyy-MM-dd hh:mm' ) as starttimestamp
                 ,endtime
                 ,unix_timestamp(endtime, 'yyyy-MM-dd hh:mm' ) as endtimestamp
                 ,(unix_timestamp(endtime,'yyyy-MM-dd hh:mm')-unix_timestamp(starttime,'yyyy-Mr M-dd hh:mm'))/60 as min_cnt 
              from
              (--step1、获取原始数据
                  select 'aa' as uid,'v0ol' as vid,'2023-10-25 12:00' as starttime,'2023-10-2512:15' as endtime 
                  union
                  select 'bb' as uid,'v0o2' as vid,'2023-10-25 12:05' as starttime,'2023-10-25 12::19' as endtime
              )tb_base
           )tb_tmp
       )tb_final
       lateral view explode(split(repeat_str,',')) tb_tmp as new_repeat
   )tb_outer
) tb
group by each_online_minute
order by each_online_minute asc
3.2、实现二:  repeat+posexplode

--step6、统计每分钟看视频的用户数,并按照时间排序
select 
    each_online_minute,from_unixtime(each_online_minute,'yyyy-MM-dd hh:mm') as minute_lab bel,count(distinct uid) online_uid_cnt 
from
(--step5、形成每个用户看视频的分钟级别的观看记录
   select
        uid,vid,starttime,starttimestamp, endtime, endtimestamp,min_cnt
        ,starttimestamp+60*repeat_pos as each_online_minute 
   
   from
   (--step4、explode列炸裂
       select uid,vid, starttime,starttimestamp ,endtime,endtimestamp, min_cnt,new_repeat,repeat_pos 
       from
       (--step3、用repeat产生持续时长(分钟) 个数组
           select uid,vid,starttime,starttimestamp,endtime,endtimestamp,min_cnt,repeat('a,',mir n_cnt-1) as repeat_str 
           from
           (--step2、转化为时间戳,且计算看视频持续时长(分钟)
              select 
                 uid
                 ,vid
                 ,starttime
                 ,unix_timestamp(starttime,'yyyy-MM-dd hh:mm' ) as starttimestamp
                 ,endtime
                 ,unix_timestamp(endtime, 'yyyy-MM-dd hh:mm' ) as endtimestamp
                 ,(unix_timestamp(endtime,'yyyy-MM-dd hh:mm')-unix_timestamp(starttime,'yyyy-Mr M-dd hh:mm'))/60 as min_cnt 
              from
              (--step1、获取原始数据
                  select 'aa' as uid,'v0ol' as vid,'2023-10-25 12:00' as starttime,'2023-10-2512:15' as endtime 
                  union
                  select 'bb' as uid,'v0o2' as vid,'2023-10-25 12:05' as starttime,'2023-10-25 12::19' as endtime
              )tb_base
           )tb_tmp
       )tb_final
       lateral view posexplode(split(repeat_str,',')) tb_tmp as repeat_pos,new_repeat
   )tb_outer
) tb
group by each_online_minute
order by each_online_minute asc

4、相关hive函数介绍

4.1、reverse返回字符串反序

       用法:reverse('foobar')参数类型string,返回值string,例如:

        select reverse('foobar')
      --返回:raboof

4.2、space返回指定n个空格字符串

用法:space(10)参数类型int,返回值string   例如:

select space(10)
--返回:'         '

4.3、repeat返回字符串重复n次后的字符串

用法:repeat('a',10)   例如:

select repeat('a',10)
--返回:'aaaaaaaaaa'

 4.3、split将字符串按指定分隔符,拆分为数组 用法:

select split('a,b,c,d',',')
--返回:["a","b","c","d"]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/136552.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【计算机组成原理】

📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…

springboot苍穹外卖实战:九、缓存菜品(手动用redisTemplate实现缓存逻辑)+缓存套餐(Spring cache实现)

缓存菜品 缺点 缓存和数据库的数据一致性通常解决方案:延时双删、异步更新缓存、分布式锁。 该项目对于缓存菜品的处理较为简单,实际可以用管道技术提高redis的操作效率、同时cache自身有注解提供使用。 功能设计与缓存设计 建议这部分去看下原视频&…

LeetCode算法心得——高级访客(模拟枚举+小窗口)

大家好,我是晴天学长,今天的周赛第二题,需要的小伙伴可以关注支持一下哦!后续会继续更新的。💪💪💪 1) .高级访客 给你一个长度为 n 、下标从 0 开始的二维字符串数组 access_times 。对于每个 …

NetSuite 固定资产报表自定义原理及应用

NetSuite固定资产模块一直处于功能迭代更新中,目前23.2的版本能够支持报表的局部自定义,比如增加原值或已折旧期间,甚至固定资产自定义字段等。但是当我们在实际项目中,会遇到一些挑战,例如: 固定资产原值…

Python:Unittest框架快速入门:用例、断言、夹具、套件、HTML报告、ddt数据驱动

快速看了套Unittest的入门教程 软件测试全套资料赠送_哔哩哔哩_bilibili软件测试全套资料赠送是快速入门unittest测试框架!全实战详细教学,仅此一套!的第1集视频,该合集共计11集,视频收藏或关注UP主,及时了…

servlet 的XML Schema从哪边获取

servlet 6.0的规范定义: https://jakarta.ee/specifications/servlet/6.0/ 其中包含的三个XML Schema:web-app_6_0.xsd、web-common_6_0.xsd、web-fragment_6_0.xsd。但这个页面没有给出下载的链接地址。 正好我本机有Tomcat 10.1.15版本的源码&#…

【Web自动化测试】如何生成高质量的测试报告

运行了所有测试用例,控制台输入的结果,如果很多测试用例那也不能够清晰快速的知道多少用例通过率以及错误情况。 web自动化测试实战之批量执行测试用例场景: 运行 AllTest.py 文件后得到的测试结果不够专业,无法直观的分析测试结果,我们能否…

文心一言 VS 讯飞星火 VS chatgpt (133)-- 算法导论11.2 5题

五、用go语言,假设将一个具有n个关键字的集合存储到一个大小为 m 的散列表中。试说明如果这些关键字均源于全域U,且|U|>nm,则U 中还有一个大小为n 的子集,其由散列到同一槽位中的所有关键字构成,使得链接法散列的查…

数据结构:树的存储结构(孩子兄弟表示法,树和森林的遍历)

目录 1.树的存储结构1.双亲表示法(顺序存储)1.优缺点 2.孩子表示法(顺序链式存储)3.孩子兄弟表示法(链式存储)4.森林与二叉树的转换 2.树的遍历1.先根遍历2.后根遍历3.层序遍历 3.森林的遍历1.先序遍历2.中…

接口自动化测试之Requests模块详解

Python中,系统自带的urllib和urllib2都提供了功能强大的HTTP支持,但是API接口确实太难用了。Requests 作为更高一层的封装,在大部分情况下对得起它的slogan——HTTP for Humans。 让我们一起来看看 Requests 这个 HTTP库在我们接口自动化测试…

阿里云ACK(Serverless)安装APISIX网关及APISIX Ingress Controller

在k8s上安装apisix全家,通过helm安装很简单,但是会遇到一些问题。 安装 首先登录阿里云控制台,在ACK集群详情页,进入CloudShell,执行下面helm命令安装apisix、apisix-ectd、apisix-dashboard和apisix-ingress-contro…

springboot的配置信息的设置和读取(application.properties/application.yml)

springboot提供了两种配置信息的文件格式,application.properties和application.yml,基于直接明了,使用方便和高效的前提下下面的配置均采用yml格式配置, 注意 yml采用缩减方式来排列键后面紧跟冒号,然后空格&#x…

git的分支及标签使用及情景演示

目录 一. 环境讲述 二.分支 1.1 命令 1.2情景演练 三、标签 3.1 命令 3.2 情景演示 ​编辑 一. 环境讲述 当软件从开发到正式环境部署的过程中,不同环境的作用如下: 开发环境:用于开发人员进行软件开发、测试和调试。在这个环境中…

揭秘:车企如何利用5R模式在数位行销领域取得突破

01 车企进入“大逃杀”时间 汽车行业一边是出口“捷报频传”,一边是内销“压力山大”。 内销的难,在之前中部某省的政府“骨折价”补贴掀起的“价格战”中已经可见一斑。这一颇具标志性的事件反映了汽车行业,尤其是燃油车行业正处在巨大的转…

python实现一个简介桌面倒计时小程序

本章内容主要是利用python制作一个简单的桌面倒计时程序,包含开始、重置 、设置功能。 目录 一、效果演示 二、程序代码 一、效果演示 二、程序代码 #!/usr/bin/python # -*- coding: UTF-8 -*- """ author: Roc-xb """import tkin…

HslCommunication模拟西门子读写数据

导入HslCommunication C#端代码(上位机) 这里要注意的是上位机IP用的当前电脑的IP。 using HslCommunication; using HslCommunication.Profinet.Siemens; using System; using System.Collections.Generic; using System.ComponentModel; using Syste…

Linux之基础开发工具gdb调试器的使用(三)

文章目录 一、Linux调试器-gdb使用1、安装gdb2、背景3、Debug和release4、区分Debug和release 二、Linux调试器-gdb命令演示1、显示指定行之后的代码(自动记录最后一条指令)2、断点1、打印断点2、查看断点3、删除断点4、使能(禁用/开启&#…

基于C#+WPF编写的调用讯飞星火大模型工具

工具源码:https://github.com/lishuangquan1987/XFYun.SparkChat 工具效果截图: 支持流式输出: 其中ApiKey/ApiSecret/AppId需要自己到讯飞星火大模型官网去注册账号申请,免费的。 申请地址:https://xinghuo.xfyun.cn/ 注册之…

Leetcode—2469.温度转换【简单】

2023每日刷题(二十六) Leetcode—2469.温度转换 实现代码 /*** Note: The returned array must be malloced, assume caller calls free().*/ double* convertTemperature(double celsius, int* returnSize) {double* ans (double *)malloc(sizeof(do…

ValueError: ‘x‘ and ‘y‘ must have the same size

ValueError: ‘x’ and ‘y’ must have the same size 问题描述 出错代码 axes[0].errorbar(dates_of_observation, observed_lai, yerrstd_lai, fmt"o")X是观测的日期,16天,而且数据也是对应的16个,为什么不对应呢?…
最新文章