Spark三：Spark SQL

Spark SQL

数据的分析方式、数据分类和SparkSQL适用场景、数据抽象（DataFrame, DataSet, RDD），SparkSQL读取数据和处理数据的两种风格：SQL风格和DSL风格
学习链接 https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ

一、数据分析方式

1.1 命令式

通过一个算子，得到一个结果，通过结果在进行后续计算

sc.textFile("...")
  .flatMap(_.split(" "))
  .map((_, 1))
  .reduceByKey(_ + _)
  .collect()

优缺点

优点：

操作粒度细，能控制数据的每一个处理环节
操作明确，步骤清晰，容易维护
支持半/非结构化数据操作

缺点：

需要代码能力、写起来麻烦

1.2 SQL

SQL on Hadoop

select name, id, class
from students
where age > 10

优缺点

优点：

表达清晰

缺点

使用机器学习算法麻烦

二、SparkSQL

2.1 发展历史

在这里插入图片描述

2.2 Hive和SparkSQL

Hive是将SQL转为MapReduce
SparkSQL是将SQL解析为：“RDD+优化”再执行

三、数据分类和SparkSQL适用场景

3.1 结构化数据

指数据由固定的Schema（约束），例如在用户表中，name字段为String，name每一条数据的name字段值都可以当做String来使用。

3.2 半结构化数据

指数据没哟䯊的Schema，但是数据本身是有结构的

3.2.1 没有固定的Schema

指的是半结构化数据是没有固定的 Schema 的，可以理解为没有显式指定 Schema。

比如说一个用户信息的 JSON 文件，
第 1 条数据的 phone_num 有可能是数字，
第 2 条数据的 phone_num 虽说应该也是数字，但是如果指定为 String，也是可以的，
因为没有指定 Schema，没有显式的强制的约束。

3.2.2 有结构

虽说半结构化数据是没有显式指定 Schema 的，也没有约束，但是半结构化数据本身是有有隐式的结构的，也就是数据自身可以描述自身。

例如 JSON 文件，其中的某一条数据是有字段这个概念的，每个字段也有类型的概念，所以说 JSON 是可以描述自身的，也就是数据本身携带有元信息。

数据类型	定义	特点	举例
结构化数据	有固定的 Schema	有预定义的 Schema	关系型数据库的表
半结构化数据	没有固定的 Schema，但是有结构	没有固定的 Schema，有结构信息，数据一般是自描述的	指一些有结构的文件格式，例如 JSON
非结构化数据	没有固定 Schema，也没有结构	没有固定 Schema，也没有结构	指图片/音频之类的格式

3.3 Spark处理数据类型

RDD主要用于处理非结构化数据、半结构化数据、结构化
SparkSQL主要处理结构化数据（较为规范的半结构化数据也可以处理）

四、SparkSQL数据抽象

4.1 DataFrame/Dataset

4.1.1 DataFrame

DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库的二维表格，带有 Schema 元信息(可以理解为数据库的列名和类型)。

4.1.2 Dataset

与RDD相比，Dataset保存了更多描述信息，概念上等同于关系型数据库中的二维表。
与DataFrame相比，保存了类型信息，是强类型的，提供了编译时类型检查。
调用 Dataset 的方法先会生成逻辑计划，然后被 spark 的优化器进行优化，最终生成物理计划，然后提交到集群中运行！
DataSet包含了DataFrame的功能。
在Spark2.0中，DataFrame表示为DataSet[ROW]，即DataSet的子集。

4.1.3 RDD、DataFrame、DataSet的区别

在这里插入图片描述

RDD[Person]：以Person为类型参数，但不了解其内部结构
DataFrame：提供了详细的结构信息 schema 列的名称和类型。这样看起来就像一张表了。
DataSet[Person]：不光有 schema 信息，还有类型信息。

4.1.4 以图解为例

RDD[Person]
DataFrame
DataFrame = RDD[Person] - 泛型 + Schema + SQL操作 + 优化
Dataset
Dataset[Person] = DataFrame + 泛型

五、Spark SQL应用

Spark2.0 SparkSession 封装了 SqlContext 及 HiveContext；
实现了 SQLContext 及 HiveContext 所有功能；
通过 SparkSession 还可以获取到 SparkConetxt。

5.1 创建DataFrame/Dataset

5.1.1 读取文本文件：

1. 本地有数据文件
1. 创建SparkSession
1. 定义case class（相当于表的schema）
1. 将RDD和case class关联
1. 将RDD转换成DataFrame
1. 查看数据和schema
1. 注册表
1. 执行QL

5.1.2 读取json文件：

读取之后可以使用DataFrame的函数操作

val jsonDF= spark.read.json("file:///resources/people.json")
jsonDF.show

注意：直接读取 json 文件有 schema 信息，因为 json 文件本身含有 Schema 信息，SparkSQL 可以自动解析。

5.1.3 读取parquet文件

val parquetDF=spark.read.parquet("file:///resources/users.parquet")
parquetDF.show

注意：直接读取 parquet 文件有 schema 信息，因为 parquet 文件中保存了列的信息。

5.2 两种查询风格：DSL和SQL

假设有一份数据

val lineRDD= sc.textFile("hdfs://node1:8020/person.txt").map(_.split(" "))
case class Person(id:Int, name:String, age:Int)
val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))
val personDF = personRDD.toDF
personDF.show

5.2.1 DSL风格

查看name字段数据
personDF.select("name").show
查看name和age字段
personDF.select("name", "age").show
查看name和age字段，并将age+1
personDF.select(col("name"), col("age") + 1).show
personDF.select($"name",$"age",$"age"+1).show
过滤age大于等于25的数据
personDF.filter($"age" >25).show
按年龄进行分组并统计相同年龄的人数
personDF.groupBy("age").count().show

5.2.2 SQL风格：

可以通过在程序中使用 spark.sql() 来执行 SQL 查询，结果将作为一个 DataFrame 返回。
如果想使用 SQL 风格的语法，需要将 DataFrame 注册成表,采用如下的方式：
personDF.createOrReplaceTempView("t_person")
spark.sql("select * from t_person").show

显示表的描述信息
spark.sql("desc t_person").show
查询年龄最大的前两名
spark.sql("select * from t_person order by age desc limit 2").show
查询年龄大于30的人的信息
spark.sql("select * from t_person where age>30").show

5.2.3 总结：

DataFrame和DataSet都可以通过RDD来创建
也可以通过读取普通文本创建——需要通过RDD+Schema约束
通过json/parquet会有完整的约束
不管是DataFrame还是DataSet都可以注册成标，之后可以使用SQL和DSL。

5.3 Spark SQL WordCount举例

package com.example

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

object WordCount {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().master("local[*]").appName("SparkSQL").getOrCreate()
    val sc = spark.sparkContext
    sc.setLogLevel("WARN")
    import spark.implicits._

    val filePath = "D:\\workshop\\code\\my-test-maven\\src\\main\\scala\\com\\example\\test.txt"

    val fileDF: DataFrame = spark.read.text(filePath)
    val fileDS: Dataset[String] = spark.read.textFile(filePath)

    // 都能打印出来
    fileDF.show()
    fileDS.show()

    // val words = fileDF.flatMap(_.split(" ")) //注意:报错,因为DF没有泛型,不知道_是String
    val wordDS = fileDS.flatMap(_.split(" ")) //注意:正确,因为DS有泛型,知道_是String
    wordDS.groupBy("value").count().orderBy($"count".desc).show()
    sc.stop()
    spark.stop()
  }
}

在这里插入图片描述

5.4 Spark SQL多数据源交互

5.4.1 读取数据：

读取json文件
spark.read.json("D:\\data\\output\\json").show()
读取csv文件
spark.read.csv("D:\\data\\output\\csv").toDF("id","name","age").show()
读取parquet文件
spark.read.parquet("D:\\data\\output\\parquet").show()
读取mysql表：

val prop = new Properties()
    prop.setProperty("user","root")
    prop.setProperty("password","root")
spark.read.jdbc(
"jdbc:mysql://localhost:3306/bigdata?characterEncoding=UTF-8","person",prop).show()