Hive入门

什么是hive?

- Hive是Facebook开发并贡献给Hadoop开源社区的。它是建立在 Hadoop体系架构上的一层 SQL抽象,使得数据相关人 员使用他们最为熟悉的SQL语言就可以进行海量数据的处理、 分析和统计工作

- Hive将数据存储于HDFS的数据文件映射为一张数据库表,以MapReduce作为计算引擎 (Hive on MR),并提供完整的sql查询功能

- 由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建 的数据仓库也秉承了这些特性

Hive构架

Hadoop生态

HQL

基础函数: SELECT FROM WHERE ORDER BY GROUP BY LIMIT ...

排序: SORT BY DISTRIBUTE BY CLUSTER BY

标准聚合函数: COUNT,SUM,MIN,MAX,AVG...

窗口函数: FIRST_VALUE,LAST_VALUE,ROW_NUMBER ,RANK…

CUBE函数:(维度限制) GROUPING SETS,CUBE,ROLLUP,GROUPING_ID(spark sql和hive不能兼容)

定义函数: UDF(User-Defined-Function) 用户自定义函数

UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping)

UDAF(User- Defined Aggregation Funcation) 自定义聚类函数 

Hive的数据单元

●Databases:数据库。概念等同于关系型数据 库的Schema;

●Tables:和关系型数据库中的表在概念上很 类似,每个表在HDFS中都有相应的目录用来存储表的数据

●外部表:Hive中的外部表和内部表很 类似,但是其数据不是放在自己表所属的目 录中,而是存放到别处,这样的好 处是如果你要删除这个外部表,该外部表所指向的数据是不会被 删除的,它只会删除外部表对应的元数据;而如果 你要删除表,该表对应的所有数据包括元数据都会被 删除 ●Partitions:分区,在Hive中,表的每一个分区 对应表下的相应目录,所有分区的数据都是存 储在对应的目录中

●Buckets :分桶,同一个分区内的数据 还可以细分,对指定的列计算其hash,根据hash值切分数据,目的是 为了并 行

●基本操作:

show databases;

show databases like 'xx*';

use database; show tables;

show partitions db.tbl_name;

desc db.table;

desc formatted db.tbl_name;

show create table db.tbl_name;

create table db.new_table like old_table

HQL优化

● 使用分区剪裁、列剪裁 在SELECT中,只拿需要的列,如果有,尽量使用分区 过滤,少用SELECT * 在分区剪裁中,当使用外关 联时,如果将副表的过滤条件写在Where后面,那么就会先全表关 联,之后再过滤 正确的写法是写在 ON后面,或者直接写成子 查询 通过执行计划可以看到具体在哪里 过滤,不确定就分析执行计划,看看执行是怎么样被优化的

● 少用多重COUNT DISTINCT

selecta,sum(b),count(distinct c),count(distinct d) from test group by a;

优化后:

select a,sum(b)as b,count(c) as c,count(d) as d from ( select a,0 as b,c,null as d from test group by a,c union all select a,0 as b,null as c,d from test group by a,d union all select a,b,null as c,null as d from test )tmp group by a;

● 是否存在多对多的关联 ● 尽量原子化操作,尽量避免一个 SQL包含复杂逻辑 ● 使用动态分区 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/482067.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java程序设计 4、5章 练习题

一、填空题 1.假设有 String s1 "Welcome to Java"; String s2 s1; String s3 new String("Welcome to Java"); 那么下面表达式的结果是什么? (1) s1 s2 ___________true_______________ (2) s1 s3 ______…

SOPHON算能服务器SDK环境配置和相关库安装

目录 1 SDK大包下载 2 安装libsophon 2.1 安装依赖 1.2 安装libsophon 2 安装 sophon-mw 参考文献: 1 SDK大包下载 首先需要根据之前的博客,下载SDK大包:SOPHON算能科技新版SDK环境配置以及C demo使用过程_sophon sdk yolo-CSDN博客 …

第 6 章 ROS-xacro练习(自学二刷笔记)

重要参考: 课程链接:https://www.bilibili.com/video/BV1Ci4y1L7ZZ 讲义链接:Introduction Autolabor-ROS机器人入门课程《ROS理论与实践》零基础教程 6.4.3 Xacro_完整使用流程示例 需求描述: 使用 Xacro 优化 URDF 版的小车底盘模型实现 结果演示: 1.编写 X…

idea使用token方式登录GitHub

总体上分为两大步:1.GitHub生成token。2.idea配置token登录GitHub。 注:idea配置GitHub的前提是本地已经安装了git程序。 一、GitHub生成token 1.登录GitHub 2.进入token创建页面(右上角点击头像–>settings–>页面向下滚动左侧菜单栏…

linux热键,man手册介绍

目录 热键 tab ctrl c ctrl r man 区段 快捷键 热键 tab 可以看到以输入的内容为开头的指令,但无法选择: 当输入的内容匹配到的内容只有一个时,可以自动补全 可以用于输入路径时,自动补全文件名 ctrl c 让当前的程序停掉,可以在 程序或指令出问题而自己无法停止时 使用…

HSP_01章_Python 语言概述

文章目录 06 开发环境安装10 注意事项11 学习方法14 Pycharm 常用快捷键14 Python 常用转义字符15 Python 注释Comment16 [Python 中文文档地址](https://docs.python.org/zh-cn/3.11/) 06 开发环境安装 python 版本命令: python cmd 退出: exit() 环境变量配置: 计算机 > 高…

【Linux】从零认识进程 — 中下篇

送给大家一句话: 人一切的痛苦,本质上都是对自己无能的愤怒。而自律,恰恰是解决人生痛苦的根本途径。—— 王小波 从零认识进程 1 进程优先级1.1 什么是优先级1.2 为什么要有优先级1.3 Linux优先级的特点 && 查看方式1.4 其他概念 2…

如何鉴别真假ZLibrary?2024 ZLibrary最新可用地址,持续更新,2024年在 zlibrary 上发现几本有意思的电子书

之前分享过全网电子书都在这了:ZLibrary 官方通道来了,不再担心找不到最新地址,配合这个脚本简直完美,最新ZLibrary可用地址 zlibrary-sg.se 如何确认一个网站是真的ZLibrary ?存在一个API 接口/eapi/info &#xff0…

pytest全局配置+前后只固件配置

pytest全局配置前后只固件配置 通过读取pytest.ini配置文件运行通过读取pytest.ini配置文件运行无条件跳过pytest.initest_mashang.pyrun.py 有条件跳过test_mashang.py pytest框架实现的一些前后置(固件、夹具)处理方法一(封装)方…

【C++航海王:追寻罗杰的编程之路】stack

目录 1 -> stack的介绍和使用 1.1 -> stack的介绍 1.2 -> stack的使用 1.3 -> stack的模拟实现 1 -> stack的介绍和使用 1.1 -> stack的介绍 stack的文档介绍 1. stack是一种容器适配器,专门用在具有后进先出操作的上下文环境中&#xff0c…

MTransE翻译

MTransE翻译 阅读时间:2024.03.23 领域:知识图谱,知识对齐 作者:Muhao Chen等人 UCLA 出处:IJCAI Multilingual Knowledge Graph Embeddings for Cross-lingual Knowledge Alignment 用于交叉知识对齐的多语言知识图…

基于java+springboot+vue实现的外卖平台系统(文末源码+Lw+ppt)23-568

摘 要 伴随着我国社会的发展,人民生活质量日益提高。于是对外卖平台系统进行规范而严格是十分有必要的,所以许许多多的信息管理系统应运而生。此时单靠人力应对这些事务就显得有些力不从心了。所以本论文将设计一套外卖平台系统,帮助商家进…

鸿蒙实战开发-如何通过拖动滑块调节应用内字体大小

介绍 本篇Codelab将介绍如何使用基础组件Slider,通过拖动滑块调节应用内字体大小。要求完成以下功能: 实现两个页面的UX:主页面和字体大小调节页面。拖动滑块改变字体大小系数,列表页和调节页面字体大小同步变化。往右拖动滑块字…

飞企互联-FE企业运营管理平台uploadAttachmentServlet 任意文件上传漏洞

产品简介 飞企互联-FE企业运营管理平台是一个基于云计算、智能化、大数据、物联网、移动互联网等技术支撑的云工作台。这个平台可以连接人、链接端、联通内外,支持企业B2B、C2B与O2O等核心需求,为不同行业客户的互联网转型提供支持。其特色在于提供云端…

【软件测试】探索和学习在模型中的软件测试

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法|MySQL| ​💫个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-JIGESSc1ecUpVUnH {font-family:"trebuchet ms",verdana,arial,sans-serif;f…

C++初阶---类和对象

目录 1. 类的引入 2. 类的定义 4. 类的访问限定符及封装 4.1 访问限定符 4.2 封装 5. 类的作用域 6.类的实例化 7.类对象模型 8. this指针 8.1 this指针的引出 8.2 this指针的特性 8.3 C语言和C实现栈的对比 9.类的六个默认成员函数 10,构造函数 10.1…

基于springboot+vue的餐饮管理系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

【链表】Leetcode 138. 随机链表的复制【中等】

随机链表的复制 给你一个长度为 n 的链表,每个节点包含一个额外增加的随机指针 random ,该指针可以指向链表中的任何节点或空节点。 构造这个链表的 深拷贝。 深拷贝应该正好由 n 个 全新 节点组成,其中每个新节点的值都设为其对应的原节点…

【数据结构基础】之八大排序(C语言实现)

【数据结构基础】之八大排序(C语言实现) 🐧 冒泡排序♈️ 冒泡排序原理及代码实现♈️ 稳定性分析 🐧 选择排序♈️ 选择排序原理及代码实现♈️ 稳定性分析 🐧 插入排序♈️ 插入排序的原理及代码实现♈️ 稳定性分析 &#x1f4…
最新文章