Hive详解(3)

Hive

数据类型

struct类型

  1. struct:结构体,对应了Java中的对象,实际上是将数据以json形式来进行存储和处理

  2. 案例

    1. 原始数据

      a tom,19,male amy,18,female
      b bob,18,male john,18,male
      c lucy,19,female lily,19,female
      d henry,18,male david,19,male
    2. 案例

      -- 建表
      create table groups (
          group_id string,
          mem_a    struct<name:string, age:int, gender:string>,
          mem_b    struct<name:string, age:int, gender:string>
      ) row format delimited
          fields terminated by ' '
          collection items terminated by ',';
      -- 加载数据
      load data local inpath '/opt/hive_data/infos' into table groups;
      -- 查询数据
      select * from groups;
      -- 获取成员a的信息
      select mem_a from groups;
      -- 获取成员a的名字
      select mem_a.name from groups;

运算符和函数

概述

  1. 在Hive中,提供了非常丰富的运算符和函数,用于对数据进行处理和分析。在Hive中,运算符和函数可以归为一类

  2. 如果需要查看Hive中所有的函数,可以通过

    show functions;
  3. 如果想要查看某一个函数的描述,可以使用

    -- 简略描述
    desc function sum;
    -- 详细描述
    desc function extended sum;
  4. 在Hive中,还允许用户自定义函数

  5. 在Hive中,函数必须结合其他的关键字来构成语句!

入门案例

  1. 案例一:给定字符串表示日期,例如'2024-03-25',从获取年份

    -- 方式一:以-拆分字符串,获取数组的第一位,将字符串转化为整数类型
    select cast(split('2024-03-25', '-')[0] as int);
    -- 方式二:正则表达式-捕获组
    select cast(regexp_extract('2024-03-25', '(.*)-(.*)-(.*)', 1) as int);
    -- 方式三:提供了year函数,直接用于提取年份,要求年月日之间必须用-隔开
    select year('2024-03-25');
  2. 案例一:给定字符串表示日期,例如'2024/03/25',从获取年份

    -- 方式一
    select cast(split('2024/03/25', '/')[0] as int);
    -- 方式二
    select cast(regexp_extract('2024/03/25', '(.*)/(.*)/(.*)', 1) as int);
    -- 方式三:先将/替换为-,再利用year函数来提取
    select year(regexp_replace('2024/03/25', '/', '-'));

常用函数

nvl函数
  1. nvl(v1, v2):判断v1的值是否为null,如果v1的值不是null,那么返回v1,如果v1的值是null,那么返回v2

  2. 案例

    1. 原始数据

      1 Adair 800
      2 David 600
      3 Danny 1000
      4 Ben 500
      5 Grace
      6 Cathy 700
      7 Kite
      8 Will 600
      9 Thomas 800
      10 Tony 1000
    2. 案例

      -- 建表
      create table rewards (
          id     int,
          name   string,
          reward double
      ) row format delimited fields terminated by ' ';
      -- 加载数据
      load data local inpath '/opt/hive_data/rewards' into table rewards;
      -- 查询数据
      select * from rewards;
      -- 计算每一个人平均发到的奖金是多少
      -- avg属于聚合函数,所有的聚合函数在遇到null的时候自动跳过不计算
      -- select avg(reward) from rewards;
      select avg(if(reward is not null, reward, 0.0)) from rewards;
      -- nvl
      select avg(nvl(reward, 0)) from rewards;
case-when函数
  1. 类似于Java中的switch-case结构,是对不同的情况进行选择

  2. 案例

    1. 原始数据

      1 bob 财务 男
      2 bruce 技术 男
      3 cindy 技术 女
      4 david 财务 男
      5 eden 财务 男
      6 frank 财务 男
      7 grace 技术 女
      8 henry 技术 男
      9 iran 技术 男
      10 jane 财务 女
      11 kathy 财务 女
      12 lily 技术 女
    2. 案例

      -- 建表
      create table employers (
          id         int,
          name       string,
          department string,
          gender     string
      ) row format delimited fields terminated by ' ';
      -- 加载数据
      load data local inpath '/opt/hive_data/employers' into table employers;
      -- 查询数据
      select *
      from employers;
      -- 需求:统计每一个部门的男生和女生人数
      -- 方式一:sum(if())
      select department                   as `部门`,
             sum(if(gender = '男', 1, 0)) as `男`,
             sum(if(gender = '女', 1, 0)) as `女`
      from employers
      group by department;
      -- 方式:sum(case-when)
      select department                                   as `部门`,
             sum(case gender when '男' then 1 else 0 end) as `男`,
             sum(case gender when '女' then 1 else 0 end) as `女`
      from employers
      group by department;
explode函数
  1. explode在使用的时候,需要传入一个数组或者是映射类型的参数。如果传入的是数组,那么会将数组中的每一个元素拆分成单独的一行构成一列数据;如果传入的是映射,那么会将映射的键和值拆分成两列

  2. 案例:单词统计

    -- 创建目录
    dfs -mkdir /words
    -- 将文件复制到这个目录下
    dfs -cp /txt/words.txt /words
    -- 查看数据
    dfs -ls /words
    -- 建表
    -- 注意:数据在HDFS上已经存在,所以应该建立外部表
    create external table words (
        line array<string>
    ) row format delimited
        collection items terminated by ' '
        location '/words';
    -- 查询数据
    select * from words;
    -- 需求:统计这个文件中每一个单词出现的次数
    -- 思路
    -- 第一步:先将数组中的元素转成一列
    select explode(line)
    from words;
    -- 第二步:统计单词出现的次数
    -- 基本结构:select x, count(x) from tableName group by x;
    select w, count(w) from (
      select explode(line) as w from words
    ) t1 group by w;
列转行
  1. 列转行,顾名思义,指的是将一列的数据拆分成多行数据。在列转行的过程中,最重要的函数就是explode

  2. 案例

    1. 原始数据

      沙丘2 剧情/动作/科幻/冒险
      被我弄丢的你 剧情/爱情
      堡垒 剧情/悬疑/历史
      热辣滚烫 剧情/喜剧
      新威龙杀阵 动作/惊悚
      周处除三害 动作/犯罪
    2. 案例

      -- 建表
      create table movies (
          name  string,       -- 电影名
          kinds array<string> -- 电影类型
      ) row format delimited
          fields terminated by ' '
          collection items terminated by '/';
      -- 加载数据
      load data local inpath '/opt/hive_data/movies' into table movies;
      -- 查询数据
      select * from movies;
      -- 需求:查询所有的动作片
      -- lateral view function(ex) tableAlias as colAlias
      -- 列转行,又称之为'炸列'
      select name, k
      from movies lateral view explode(kinds) ks as k
      where k = '动作';
  3. 案例二

    1. 原始数据

      bob 开朗,活泼   打游戏,打篮球
      david   开朗,幽默   看电影,打游戏
      lucy    大方,开朗   看电影,听音乐
      jack    内向,大方   听音乐,打游戏
    2. 案例

      -- 建表
      create table persons (
          name       string,        -- 姓名
          characters array<string>, -- 性格
          hobbies    array<string>  -- 爱好
      ) row format delimited
          fields terminated by '\t'
          collection items terminated by ',';
      -- 加载数据
      load data local inpath '/opt/hive_data/persons' into table persons;
      -- 查询数据
      select * from persons;
      -- 获取性格开朗且喜欢打游戏的人
      select name, c, h
      from persons
               lateral view explode(characters) cs as c
               lateral view explode(hobbies) hs as h
      where c = '开朗'
        and h = '打游戏';
行转列
  1. 行转列,将多行的数据合并成一列

  2. 案例

    select * from students_tmp;
    -- 将同年级同班级的学生放到一起
    -- collect_list和collect_set将数据合并到一个数组中
    -- 不同的地方在于,collect_list允许有重复数据,但是collect_set不允许元素重复
    -- concat_ws(符号,元素),表示将后边的元素之间用指定的符号进行拼接,拼接成一个字符串
    select grade                               as `年级`,
           class                               as `班级`,
           concat_ws(', ', collect_list(name)) as `学生`
    from students_tmp
    group by grade, class;

分类

  1. 除了窗口函数以外,将其他的函数分为了3类:UDF、UDAF和UDTF函数

  2. UDF:User Defined Function,用户定义函数,特点是一进一出,即用户输入一行数据会获取到一行结果,例如yearsplitconcat_wsregexp_replaceregexp_extract

  3. UDAF:User Defined Aggregation Function,用户定义聚合函数,特点是多进一出,即用户输入多行数据会获取到一行结果,例如sumavgcountmaxmincollect_listcollect_set

  4. UDTF:User Defined Table-generated Function,用户定义表生成函数,特点是一进多出,即用户输入一行数据能够获取到多行结果,例如explodeinlinestack

  5. 在Hive中,大部分函数都是UDF函数

自定义函数

  1. 自定义UDF:需要定义一个类,Hive1.x和Hive2.x继承UDF类,但是Hive3.x,UDF类已经过时,所以需要继承GenericUDF

  2. 自定义UDTF:需要定义一个类,继承GenericUDTF

  3. 打成jar包,然后上传到HDFS上

  4. 在Hive中创建函数

    -- 基本语法
    create function 函数名
        as '包名.类名'
        using jar '在HDFS上的存储路径';
    -- UDF
    create function indexOf
        as 'com.fesco.AuthUDF'
        using jar 'hdfs://hadoop01:9000/F_Hive-1.0-SNAPSHOT.jar';
    -- UDTF
    create function splitLine
        as 'com.fesco.AuthUDTF'
        using jar 'hdfs://hadoop01:9000/F_Hive-1.0-SNAPSHOT.jar';
    
    -- 测试
    select indexOf('welcome', 'm');
    select splitLine('welcome to big data', ' ');
  5. 删除函数

    drop function indexOf;

窗口函数

概述

  1. 窗口函数又称之为开窗函数,用于限定要处理的数据范围

  2. 基本语法结构

    分析函数 over(partition by 字段 order by 字段 [desc/asc] rows between 起始范围 and 结束范围)
    1. partition by对数据进行分类

    2. order by对数据进行排序

    3. rows between x and y指定数据的处理范围

      关键字解释
      preceding向前
      following向后
      unbounded无边界
      current row当前行
    4. 示例:假设当前处理的第5行数据

      1. 2 preceding and current row:处理前两行到当前行。即处理第3~5行的数据

      2. current row and 3 following:处理当前行以及向后3行。即处理第5~8行的数据

      3. unbounded preceding and current row:从第一行到当前行

      4. current row and unbounded following:从当前行到最后一行

    5. 分析函数:大致可以分为三组

      1. 聚合函数,例如sumavg

      2. 移位函数,包含lagleadntil

      3. 排序函数,包含row_numberrankdense_rank

案例

  1. 原始数据

    jack,2017-01-01,10
    tony,2017-01-02,15
    jack,2017-02-03,23
    tony,2017-01-04,29
    jack,2017-01-05,46
    jack,2017-04-06,42
    tony,2017-01-07,50
    jack,2017-01-08,55
    mart,2017-04-08,62
    mart,2017-04-09,68
    neil,2017-05-10,12
    mart,2017-04-11,75
    neil,2017-06-12,80
    mart,2017-04-13,94
  2. 建表

    -- 建表
    create table orders
    (
        name       string,
        order_date string,
        cost       int
    ) row format delimited fields terminated by ',';
    -- 加载数据
    load data local inpath '/opt/hive_data/orders' into table orders;
  3. 需求一:查询每一位顾客的消费明细以及到消费日期为止的总消费金额

    -- 思路:
    -- 1. 拆寻每一位顾客的信息,那么需要按照顾客姓名来分类
    -- 2. 按照日期,将订单进行排序
    -- 3. 计算总消费金额,所以需要求和
    -- 4. 到当前消费日期为止的金额,也就意味着是获取从第一行到当前行的数据来处理
    select *,
           sum(cost) over (partition by name order by order_date rows between unbounded preceding and current row ) as total_cost
    from orders;

补充:正则捕获组

概述

  1. 在正则表达式中,将()括起来的部分,称之为捕获组,此时可以将捕获组看作是一个整体

  2. 在正则表达式中,默认会对捕获组进行编号,编号是从1开始的。编号的计算,是从捕获组左半边括号出现的顺序来依次计算的

    例如:(AB(C(D)E)F(G))
    1	AB(C(D)E)F(G)
    2	C(D)E
    3	D
    4	G
  3. 在正则表达式中,可以通过\n的形式来引用对应编号的捕获组。例如\1表示引用编号为1的捕获组

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/497511.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

flink on yarn-per job源码解析、flink on k8s介绍

Flink 架构概览–JobManager JobManager的功能主要有: 将 JobGraph 转换成 Execution Graph,最终将 Execution Graph 拿来运行Scheduler 组件负责 Task 的调度Checkpoint Coordinator 组件负责协调整个任务的 Checkpoint,包括 Checkpoint 的开始和完成通过 Actor System 与 …

如何在Apache Arrow中定位与解决问题

如何在apache Arrow定位与解决问题 最近在执行sql时做了一些batch变更&#xff0c;出现了一个 crash问题&#xff0c;底层使用了apache arrow来实现。本节将会从0开始讲解如何调试STL源码crash问题&#xff0c;在这篇文章中以实际工作中resize导致crash为例&#xff0c;引出如何…

论文笔记:分层问题-图像共注意力问答

整理了2017 Hierarchical Question-Image Co-Attention for Visual Question Answering&#xff09;论文的阅读笔记 背景模型问题定义模型结构平行共注意力交替共注意力 实验可视化 背景 视觉问答(VQA)的注意力模型在此之前已经有了很多工作&#xff0c;这种模型生成了突出显示…

elementplus-vue-审核按钮-对话框(Dialog )

效果图&#xff1a; 代码&#xff1a; <template> <el-button type"success" click"dialogVisible true" :icon"Edit">审核</el-button> <el-dialog v-model"dialogVisible" title"是否通过" width&q…

持续集成流水线介绍(CI)

目录 一、概述 二、持续集成的典型操作流程 2.1 概述 2.2 持续集成的操作流程图 2.3 持续集成关键流程说明 三、构建持续集成流水线的方式 3.1 依托云厂商能力 3.2 采用开源产品 3.3 企业自研 四、构建持续化集成流水线 4.1 基于GitHub的持续集成流水线&#xff08;公…

Haproxy2.8.1+Lua5.1.4部署,haproxy.cfg配置文件详解和演示

目录 一.快速安装lua和haproxy 二.配置haproxy的配置文件 三.配置haproxy的全局日志 四.测试负载均衡、监控和日志效果 五.server常用可选项 1.check 2.weight 3.backup 4.disabled 5.redirect prefix和redir 6.maxconn 六.调度算法 1.静态 2.动态 一.快速安装lu…

uniApp使用XR-Frame创建3D场景(5)材质贴图的运用

上一篇讲解了如何在uniApp中创建xr-frame子组件并创建简单的3D场景。 这篇我们讲解在xr-frame中如何给几何体赋予贴图材质。 先看源码 <xr-scene render-system"alpha:true" bind:ready"handleReady"><xr-node><xr-assets><xr-asse…

Go的数据结构与实现【Set】

介绍 Set是值的集合&#xff0c;可以迭代这些值、添加新值、删除值并清除集合、获取集合大小并检查集合是否包含值&#xff0c;集合中的一个值只存储一次&#xff0c;不能重复。 本文代码地址为go-store 简单实现 这是集合的一个简单实现&#xff0c;还不是并发安全的&#…

【tensorflow框架神经网络实现鸢尾花分类】

文章目录 1、数据获取2、数据集构建3、模型的训练验证可视化训练过程 1、数据获取 从sklearn中获取鸢尾花数据&#xff0c;并合并处理 from sklearn.datasets import load_iris import pandas as pdx_data load_iris().data y_data load_iris().targetx_data pd.DataFrame…

kubernetes K8s的监控系统Prometheus升级Grafana,来一个酷炫的Node监控界面(二)

上一篇文章《kubernetes K8s的监控系统Prometheus安装使用(一)》中使用的监控界面总感觉监控的节点数据太少&#xff0c;不能快算精准的判断出数据节点运行的状况。 今天我找一款非常酷炫的多维度数据监控界面&#xff0c;能够非常有把握的了解到各节点的数据&#xff0c;以及运…

快速上手Spring Cloud 七:事件驱动架构与Spring Cloud

快速上手Spring Cloud 一&#xff1a;Spring Cloud 简介 快速上手Spring Cloud 二&#xff1a;核心组件解析 快速上手Spring Cloud 三&#xff1a;API网关深入探索与实战应用 快速上手Spring Cloud 四&#xff1a;微服务治理与安全 快速上手Spring Cloud 五&#xff1a;Spring …

AOP切入点表达式基本格式

版权声明 本文原创作者&#xff1a;谷哥的小弟作者博客地址&#xff1a;http://blog.csdn.net/lfdfhl 官方地址 https://docs.spring.io/spring-framework/reference/core/aop/ataspectj/pointcuts.html AOP切入点表达式基本格式如下&#xff1a; execution(modifiers-patte…

竞赛 python+opencv+深度学习实现二维码识别

0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 &#x1f6a9; pythonopencv深度学习实现二维码识别 &#x1f947;学长这里给一个题目综合评分(每项满分5分) 难度系数&#xff1a;3分工作量&#xff1a;3分创新点&#xff1a;3分 该项目较为新颖&…

ES6 学习(三)-- es特性

文章目录 1. Symbol1.1 使用Symbol 作为对象属性名1.2 使用Symbol 作为常量 2. Iterator 迭代器2.1 for...of循环2.2 原生默认具备Interator 接口的对象2.3 给对象添加Iterator 迭代器2.4 ... 解构赋值 3. Set 结构3.1 初识 Set3.2 Set 实例属性和方法3.3 遍历3.4 相关面试题 4…

RabbitMQ3.x之四_RabbitMQ角色说明及创建用户与授权

RabbitMQ3.x之四_角色说明及创建用户与授权 文章目录 RabbitMQ3.x之四_角色说明及创建用户与授权1. 访问和授权1. Tags说明2. 命令行示例 2. 管理界面新建用户及访问授权1. 管理界面新建用户2. 管理界面中的授权说明3. guest用户不能远程登录提示 3. 创建用户1. 基本命令2. 实际…

新网站收录时间是多久,新建网站多久被百度收录

对于新建的网站而言&#xff0c;被搜索引擎收录是非常重要的一步&#xff0c;它标志着网站的正式上线和对外开放。然而&#xff0c;新网站被搜索引擎收录需要一定的时间&#xff0c;而且时间长短受多种因素影响。本文将探讨新网站收录需要多长时间&#xff0c;以及新建网站多久…

微信小程序更换头像的功能

微信小程序开发&#xff0c;个人中心中更换头像的更能使用频率很高&#xff0c;这里记录下实现方式&#xff1a; <view class"setting-list avatar-container"><text>头像</text><view class"avatar"><button hover-class"…

华为云使用指南02

5.​​使用GitLab进行团队及项目管理​​ GitLab旨在帮助团队进行项目开发协作&#xff0c;为软件开发和运营生命周期提供了一个完整的DevOps方案。GitLab功能包括&#xff1a;项目源码的管理、计划、创建、验证、集成、发布、配置、监视和保护应用程序等。该镜像基于CentOS操…

ZK友好代数哈希函数安全倡议

1. 引言 前序博客&#xff1a; ZKP中的哈希函数如何选择ZK-friendly 哈希函数&#xff1f;snark/stark-friendly hash函数Anemoi Permutation和Jive Compression模式&#xff1a;高效的ZK友好的哈希函数Tip5&#xff1a;针对Recursive STARK的哈希函数 随着Incrementally Ve…

STM32 字符数组结束符 “\0”

STM32 字符数组结束符 “\0” 使用字符数组使用printf&#xff0c;string参考 使用字符数组 使用STM32的串口发送数据&#xff0c;核心代码如下&#xff1a; char str[] "hello world!\n\r";while(1) {HAL_UART_Transmit(&huart2, str, sizeof (str), 10);HAL…