当前位置: 首页 > news >正文

长沙企业做网站新闻发布最新新闻

长沙企业做网站,新闻发布最新新闻,骏域建网站,北京专业网站建设公司1、Spark SQL 概述 Spark SQL概念 Spark SQL is Apache Spark’s module for working with structured data. 它是spark中用于处理结构化数据的一个模块 Spark SQL历史 Hive是目前大数据领域,事实上的数据仓库标准。 Shark:shark底层使用spark的基于…

1、Spark SQL 概述

Spark SQL概念

  • Spark SQL is Apache Spark’s module for working with structured data.
    • 它是spark中用于处理结构化数据的一个模块

Spark SQL历史

  • Hive是目前大数据领域,事实上的数据仓库标准。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RYXFl2mo-1691307143907)(pics/s9.png)]

  • Shark:shark底层使用spark的基于内存的计算模型,从而让性能比Hive提升了数倍到上百倍。
  • 底层很多东西还是依赖于Hive,修改了内存管理、物理计划、执行三个模块
  • 2014年6月1日的时候,Spark宣布了不再开发Shark,全面转向Spark SQL的开发

Spark SQL优势

  • Write Less Code

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bM2bkjVy-1691307143908)(pics/s10.png)]

  • Performance

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-huLM3437-1691307143908)(pics/s11.png)]

python操作RDD,转换为可执行代码,运行在java虚拟机,涉及两个不同语言引擎之间的切换,进行进程间 通信很耗费性能。

DataFrame

  • 是RDD为基础的分布式数据集,类似于传统关系型数据库的二维表,dataframe记录了对应列的名称和类型
  • dataFrame引入schema和off-heap(使用操作系统层面上的内存)
    • 1、解决了RDD的缺点
    • 序列化和反序列化开销大
    • 频繁的创建和销毁对象造成大量的GC
    • 2、丢失了RDD的优点
    • RDD编译时进行类型检查
    • RDD具有面向对象编程的特性

用scala编写的RDD比Spark SQL编写转换的RDD慢,涉及到执行计划

  • CatalystOptimizer:Catalyst优化器
  • ProjectTungsten:钨丝计划,为了提高RDD的效率而制定的计划
  • Code gen:代码生成器

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y819Vj8n-1691307143909)(pics/s12.png)]

直接编写RDD也可以自实现优化代码,但是远不及SparkSQL前面的优化操作后转换的RDD效率高,快1倍左右

优化引擎:类似mysql等关系型数据库基于成本的优化器

首先执行逻辑执行计划,然后转换为物理执行计划(选择成本最小的),通过Code Generation最终生成为RDD

  • Language-independent API

    用任何语言编写生成的RDD都一样,而使用spark-core编写的RDD,不同的语言生成不同的RDD

  • Schema

    结构化数据,可以直接看出数据的详情

    在RDD中无法看出,解释性不强,无法告诉引擎信息,没法详细优化。

**为什么要学习sparksql **

sparksql特性

  • 1、易整合
  • 2、统一的数据源访问
  • 3、兼容hive
  • 4、提供了标准的数据库连接(jdbc/odbc)
http://www.mfbz.cn/news/481/

相关文章:

  • 什么都不懂做网站推广方案怎么写模板
  • 长沙自动化网站建设站长素材
  • 如何做网站帮别人赚钱潍坊快速网站排名
  • 个人做淘宝客网站有哪些百度广告官网
  • 番禺做网站的google下载官方版
  • 外贸自主建站平台网络营销的现状和发展趋势
  • 互联网app网站建设方案模板下载百度ai开放平台
  • 影响网站排名的因素站内关键词排名软件
  • 手机网站开发开发网络营销团队
  • 多种大连网站建设免费网站推广
  • 体检中心网站建设方案哪里可以买链接网站
  • 东营做网站哪家好成都百度百科
  • 网站建设mingxinsh百度下载软件
  • 小学网站模板免费下载武汉seo搜索引擎优化
  • 做壁纸壁的网站有什么区别长春网站优化
  • 西宁网站建设优化案例网址查询地址查询
  • 建设一个公司网站需要什么知识网络推广要求
  • 六安哪家公司做网站好软文文案范文
  • 博白县建设局网站做优化的网站
  • 网站建设 提供源码100个免费推广b站
  • 网站的建设合同是否交印花税建站模板免费下载
  • 阿里云创建网站百度用户服务中心
  • 成都哪家做网站公司好品牌企业seo咨询
  • 这是我自己做的网站百度霸屏推广
  • 哪里可以做虚拟货币网站四川省人民*官网
  • 创办一个网站的流程推广互联网营销
  • 专业的高端企业网站希爱力吃一颗能干多久
  • 专注东莞微信网站设计百度小说排行榜前十名
  • 网站服务器如何做端口映射seo优化排名经验
  • 私人服装定制网站河源新闻最新消息