Spark三:Spark SQL

Spark SQL

数据的分析方式、数据分类和SparkSQL适用场景、数据抽象(DataFrame, DataSet, RDD),SparkSQL读取数据和处理数据的两种风格:SQL风格和DSL风格
学习链接 https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ

一、数据分析方式

1.1 命令式

通过一个算子,得到一个结果,通过结果在进行后续计算

sc.textFile("...")
  .flatMap(_.split(" "))
  .map((_, 1))
  .reduceByKey(_ + _)
  .collect()

优缺点

优点:

  1. 操作粒度细,能控制数据的每一个处理环节
  2. 操作明确,步骤清晰,容易维护
  3. 支持半/非结构化数据操作

缺点:

  1. 需要代码能力、写起来麻烦

1.2 SQL

SQL on Hadoop

select name, id, class
from students
where age > 10

优缺点

优点:

  1. 表达清晰

缺点

  1. 使用机器学习算法麻烦

二、SparkSQL

2.1 发展历史

在这里插入图片描述

2.2 Hive和SparkSQL

Hive是将SQL转为MapReduce
SparkSQL是将SQL解析为:“RDD+优化”再执行

三、数据分类和SparkSQL适用场景

3.1 结构化数据

指数据由固定的Schema(约束),例如在用户表中,name字段为String,name每一条数据的name字段值都可以当做String来使用。

3.2 半结构化数据

指数据没哟䯊的Schema,但是数据本身是有结构的

3.2.1 没有固定的Schema

指的是半结构化数据是没有固定的 Schema 的,可以理解为没有显式指定 Schema。

比如说一个用户信息的 JSON 文件,
第 1 条数据的 phone_num 有可能是数字,
第 2 条数据的 phone_num 虽说应该也是数字,但是如果指定为 String,也是可以的,
因为没有指定 Schema,没有显式的强制的约束。

3.2.2 有结构

虽说半结构化数据是没有显式指定 Schema 的,也没有约束,但是半结构化数据本身是有有隐式的结构的,也就是数据自身可以描述自身。

例如 JSON 文件,其中的某一条数据是有字段这个概念的,每个字段也有类型的概念,所以说 JSON 是可以描述自身的,也就是数据本身携带有元信息。

数据类型定义特点举例
结构化数据有固定的 Schema有预定义的 Schema关系型数据库的表
半结构化数据没有固定的 Schema,但是有结构没有固定的 Schema,有结构信息,数据一般是自描述的指一些有结构的文件格式,例如 JSON
非结构化数据没有固定 Schema,也没有结构没有固定 Schema,也没有结构指图片/音频之类的格式

3.3 Spark处理数据类型

RDD主要用于处理非结构化数据、半结构化数据、结构化
SparkSQL主要处理结构化数据(较为规范的半结构化数据也可以处理)

四、SparkSQL数据抽象

4.1 DataFrame/Dataset

4.1.1 DataFrame

DataFrame 是一种以 RDD 为基础的分布式数据集,类似于传统数据库的二维表格,带有 Schema 元信息(可以理解为数据库的列名和类型)。

4.1.2 Dataset

与RDD相比,Dataset保存了更多描述信息,概念上等同于关系型数据库中的二维表。
与DataFrame相比,保存了类型信息,是强类型的,提供了编译时类型检查。
调用 Dataset 的方法先会生成逻辑计划,然后被 spark 的优化器进行优化,最终生成物理计划,然后提交到集群中运行!
DataSet包含了DataFrame的功能。
在Spark2.0中,DataFrame表示为DataSet[ROW],即DataSet的子集。

4.1.3 RDD、DataFrame、DataSet的区别

在这里插入图片描述

  • RDD[Person]:以Person为类型参数,但不了解其内部结构
  • DataFrame:提供了详细的结构信息 schema 列的名称和类型。这样看起来就像一张表了。
  • DataSet[Person]:不光有 schema 信息,还有类型信息。

4.1.4 以图解为例

  • RDD[Person]
    在这里插入图片描述
  • DataFrame
    DataFrame = RDD[Person] - 泛型 + Schema + SQL操作 + 优化
    在这里插入图片描述
  • Dataset
    Dataset[Person] = DataFrame + 泛型
    在这里插入图片描述

五、Spark SQL应用

Spark2.0 SparkSession 封装了 SqlContext 及 HiveContext;
实现了 SQLContext 及 HiveContext 所有功能;
通过 SparkSession 还可以获取到 SparkConetxt。

5.1 创建DataFrame/Dataset

5.1.1 读取文本文件:

    1. 本地有数据文件
    1. 创建SparkSession
    1. 定义case class(相当于表的schema)
    1. 将RDD和case class关联
    1. 将RDD转换成DataFrame
    1. 查看数据和schema
    1. 注册表
    1. 执行QL

5.1.2 读取json文件:

读取之后可以使用DataFrame的函数操作

val jsonDF= spark.read.json("file:///resources/people.json")
jsonDF.show

注意:直接读取 json 文件有 schema 信息,因为 json 文件本身含有 Schema 信息,SparkSQL 可以自动解析。

5.1.3 读取parquet文件

val parquetDF=spark.read.parquet("file:///resources/users.parquet")
parquetDF.show

注意:直接读取 parquet 文件有 schema 信息,因为 parquet 文件中保存了列的信息。

5.2 两种查询风格:DSL和SQL

假设有一份数据

val lineRDD= sc.textFile("hdfs://node1:8020/person.txt").map(_.split(" "))
case class Person(id:Int, name:String, age:Int)
val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))
val personDF = personRDD.toDF
personDF.show

5.2.1 DSL风格

  1. 查看name字段数据
    personDF.select("name").show
  2. 查看name和age字段
    personDF.select("name", "age").show
  3. 查看name和age字段,并将age+1
    personDF.select(col("name"), col("age") + 1).show
    personDF.select($"name",$"age",$"age"+1).show
  4. 过滤age大于等于25的数据
    personDF.filter($"age" >25).show
  5. 按年龄进行分组并统计相同年龄的人数
    personDF.groupBy("age").count().show

5.2.2 SQL风格:

可以通过在程序中使用 spark.sql() 来执行 SQL 查询,结果将作为一个 DataFrame 返回。
如果想使用 SQL 风格的语法,需要将 DataFrame 注册成表,采用如下的方式:
personDF.createOrReplaceTempView("t_person")
spark.sql("select * from t_person").show

  1. 显示表的描述信息
    spark.sql("desc t_person").show
  2. 查询年龄最大的前两名
    spark.sql("select * from t_person order by age desc limit 2").show
  3. 查询年龄大于30的人的信息
    spark.sql("select * from t_person where age>30").show

5.2.3 总结:

  1. DataFrame和DataSet都可以通过RDD来创建
  2. 也可以通过读取普通文本创建——需要通过RDD+Schema约束
  3. 通过json/parquet会有完整的约束
  4. 不管是DataFrame还是DataSet都可以注册成标,之后可以使用SQL和DSL。

5.3 Spark SQL WordCount举例

package com.example

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

object WordCount {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().master("local[*]").appName("SparkSQL").getOrCreate()
    val sc = spark.sparkContext
    sc.setLogLevel("WARN")
    import spark.implicits._

    val filePath = "D:\\workshop\\code\\my-test-maven\\src\\main\\scala\\com\\example\\test.txt"

    val fileDF: DataFrame = spark.read.text(filePath)
    val fileDS: Dataset[String] = spark.read.textFile(filePath)

    // 都能打印出来
    fileDF.show()
    fileDS.show()

    // val words = fileDF.flatMap(_.split(" ")) //注意:报错,因为DF没有泛型,不知道_是String
    val wordDS = fileDS.flatMap(_.split(" ")) //注意:正确,因为DS有泛型,知道_是String
    wordDS.groupBy("value").count().orderBy($"count".desc).show()
    sc.stop()
    spark.stop()
  }
}

在这里插入图片描述

5.4 Spark SQL多数据源交互

5.4.1 读取数据:

  1. 读取json文件
    spark.read.json("D:\\data\\output\\json").show()
  2. 读取csv文件
    spark.read.csv("D:\\data\\output\\csv").toDF("id","name","age").show()
  3. 读取parquet文件
    spark.read.parquet("D:\\data\\output\\parquet").show()
  4. 读取mysql表:
val prop = new Properties()
    prop.setProperty("user","root")
    prop.setProperty("password","root")
spark.read.jdbc(
"jdbc:mysql://localhost:3306/bigdata?characterEncoding=UTF-8","person",prop).show()

5.4.2 写数据

  1. 写入json文件
    personDF.write.json("D:\\data\\output\\json")
  2. 写入csv文件
    personDF.write.csv("D:\\data\\output\\csv")
  3. 写入parquet文件
    personDF.write.parquet("D:\\data\\output\\parquet")
  4. 写入mysql表

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/290935.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【GNN】经典GNN的数学原理之美

目录 引言 背景 图神经网络 节点 消息传递 聚合 更新 整合在一起 使用邻接矩阵 GNN层堆叠 以节点分类为例训练GNN。 训练和测试数据 1、Transductive 2、Inductive 反向传播和梯度下降 流行图神经网络总结 1、消息传递神经网络 2、图卷积 3、图注意力网络 …

旧硬盘插电脑上显示要初始化怎么办?了解原因和解决方案

在使用旧的硬盘插入电脑时,有时会遇到需要进行初始化的情况。这种情况可能是由于多种原因引起的,而初始化硬盘将会导致所有数据丢失,给用户造成不便和损失。因此,本文将介绍解决旧硬盘需要初始化的问题的方法,并提供一…

毕业设计:基于机器学习xgboost lgbm adaboost 的空气质量预测pm2.5‘, ‘so2‘, ‘no2‘ 完整代码数据-可直接运行

项目详细视频讲解介绍: 基于机器学习xgboost lgbm adaboost 的空气质量预测-完整代码数据可直接运行_哔哩哔哩_bilibili 数据展示: 运行结果展示: 项目代码: from sklearn import preprocessing import random from sklearn.model_selection import train_test_split fr…

软件测试第二部分:白盒测试

概念与定义 白盒测试:侧重于系统或部件内部机制的测试,类型分为分支测试(判定节点测试)、路径测试、语句测试。 控制流分析(基于程序结构):控制流分析是一类用于分析程序控制流结构的静态分析技术,目的在于…

ModuleNotFoundError: No module named ‘numpy.testing.decorators‘

文章目录 报错信息报错原因解决方案 关注公众号:『AI学习星球』 算法学习、4对1辅导、论文辅导或核心期刊可以通过公众号或➕v:codebiubiubiu滴滴我 报错信息 ModuleNotFoundError: No module named numpy.testing.decorators 报错原因 新版本已经去…

面试算法88:爬楼梯的最少成本

题目 一个数组cost的所有数字都是正数,它的第i个数字表示在一个楼梯的第i级台阶往上爬的成本,在支付了成本cost[i]之后可以从第i级台阶往上爬1级或2级。假设台阶至少有2级,既可以从第0级台阶出发,也可以从第1级台阶出发&#xff…

pip install 安装模块包位置及设置Anaconda为默认版本python

01问题 pycharm运行代码找不到模块包pip install不知道安装到哪里了jupyter使用不同版本python 02产生原因 安装了多个版本pythonanaconda本身也带有python 03解决办法 (1)查看当前默认python版本 打开运行窗口Winr; 输入cmd回车; 输入python回车…

初识Web服务器

一、web服务器 1、什么是web服务器? web服务器就是web项目的容器,我们将开发好的web项目部署到web容器中,才能使用网络中的用户通过浏览器进行访问。 一张图带你了解web服务器有啥作用: 在我的电脑上有一个已经做好的项目&#…

linux centos 添加临时ip

### 1.添加ip ip addr add IP/mask dev 网络设备 例:ip addr add 172.104.210.247/24 dev ens5f1 ### 2.启动网卡 ip link set up 网络设备 例:ip link set up ens3f0 ### 3.设置默认路由 ip route add default via GATEWAY 例:ip route add …

python3ide手机安卓版下载,python3下载手机安卓版

大家好,给大家分享一下python3ide手机安卓版下载,很多人还不知道这一点。下面详细解释一下。现在让我们来看看! 大家好,给大家分享一下python3ide安卓版官网下载,很多人还不知道这一点。下面详细解释一下python编程代码…

C#编程-描述内存分配

描述内存分配 分配给变量的内存通过两种方式引用:值类型和引用类型。内置数据类型,诸如int、char和float都是值雷兴国。当您声明int变量时,编译器会分配一个内存块以保持该整数值。请思考以下语句: int Num 50;上述语句为保存值…

手机怎么边看视频边记笔记或备忘录?

在这个信息爆炸的时代,我们经常需要通过看培训视频、听网课来不断充实自己。但是,手机屏幕那么小,如何才能在做笔记的同时,又不错过视频的每一个细节呢? 以前,我总是为此头疼。一手拿着手机看视频&#xf…

电脑视频需要分屏怎么做

在当今数字时代,人们对于视频的需求越来越高。有时候,我们可能想在同一屏幕上同时播放多个视频,进行对比、观看、剪辑或者其他目的。那么,视频分屏应该怎么做呢? 在本篇文章中,我们将会详细的为你介绍视频分…

可狱可囚的爬虫系列课程 09:通过 API 接口抓取数据

前面已经讲解过 Requests 结合 BeautifulSoup4 库抓取数据,这种方式在抓取数据时还是比较方便快捷的,但是这并不意味着所有的网站都适合这种方式,并且这也不是抓取数据的最快方式,今天我们来讲一种更快速的获取数据的方式&#xf…

Python selenium模块的安装和配置教程

一、selenium的安装以及简单应用 我们以谷歌浏览器的chromedriver为例 1、在Python虚拟环境中安装selenium模块 pip/pip3 install selenium 2、下载版本符合的webdriver 以chrome谷歌浏览器为例 查看谷歌浏览器的版本 鼠标点击右上角的竖排的三个点,然后选择“…

P1192 台阶问题————C++

目录 台阶问题题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示 解题思路Code运行结果 台阶问题 题目描述 有 N N N 级台阶,你一开始在底部,每次可以向上迈 1 ∼ K 1\sim K 1∼K 级台阶,问到达第 N N N 级台阶有多少种不同方…

华为设备命令最全大合集(2024新版),赶紧收藏!

01、华为交换机基础配置命令 01 常用命令视图 02 创建VLAN //用户视图,一般display命令查看信息比较多。 system-view //准备进入系统视图。 [Huawei]vlan 100 //创建vlan 100。 [Huawei-vlan100]quit //退回系统视图。 03 将端口加入到vlan中 [Huawei] inter…

【C语言】字符串 和 ctype.h 中的函数 练习

前面总结了有关字符串和ctype.h的文章,接下来就以几个例子来练习一下,以巩固之前的基础概念。注意:以下示例都有更简单更高效的解决方法,但本次仅以巩固基础为目的,所以方法可能稍作繁琐 Leetcode 344.反转字符串 编…

Spring Boot 整合多 Redis 数据源配置及操作

Spring Boot 整合多 Redis 数据源配置及操作 简介 本文档介绍了如何在Spring Boot应用程序中配置和操作多个Redis数据源。通过配置多个RedisConnectionFactory和RedisTemplate,可以实现对多个Redis数据源的整合,以便在应用程序中灵活地使用不同的Redis…

windows2012 安装mysql5.7

windows2012 安装mysql5.7 1.安装1.解压文件夹2.把my文件拷入没有sql安装目录3.编辑my文件4.按照下方进行配置5.cmd进入bin目录6.出现丢失文件7.安装这个文件即可解决8.开始进行安装,输入mysqld install9.初始化mysql(mysqld --initialize --console&…
最新文章