Delta lake with Java--读《Delta Lake Up and Running》总结

利用5.1假期读完《Delta Lake Up and Running》,这本书非常适合入门,但不够深入,要想将Delta lake用于实际项目,还是需要从spark开始重新学习。学完一本书总结一下这本书的内容。

第一章 概念介绍,其中第21页的Medallio Architecture架构(金,银,铜)是数据湖架构基础,基本上数据湖的书籍都会提及。

第二章 Delta lake入门,需要掌握如何创建sparksession,如何用sparksession实现数据读写,其实使用的就是spark dataframe api,只是格式要设定为delta,深入一点可以看一下这章后面关于delta lake文件的说明。

第三章 Delta lake最基本操作,包括建库,建表,描述表结构,插入数据,查询数据,可以通过3种方式实现,分别是spark sql+sql语句,spark dataframe api,deltatable api,个人觉得用sql语句比较简单。

第四章 Delta lake最基本的数据操作,包括删除,更新,merges,个人理解只能通过sql语句和deltatable api来实现,其中merges比较复杂。

第五章 性能调优,调优的方法有:分区,压缩文件,zorder by, liquid clustering。其中分区觉得比较有效,liquid clustering还是实验阶段,压缩文件,zorder by需要定时触发而且每次触发都会耗时,实际应用应该写一个后台任务在没有任何操作的时候来自动触发。

第六章 时间旅行,主要是利用Delta lake能保存数据版本这一特点来实现。另外Delta lake 不会清除历史版本,需要定时运行VACUUM命令来清理。最后捕捉行记录的变化。以上操作均可以通过sql语句实现。

第七章 表结构变化处理,主要是两类处理,一类是固定结构,遇到不一致的就报错。另外一个类就是结构可以根据数据变化,要实现结构自动变化主要在数据写入的时候,设置option("mergeSchema",true)。

第八章 如何使用流实现数据同步,书中只实现了插入数据同步,没有实现更新数据同步,但官网文档上有说明,目前删除数据好像是无法通过流实现同步。

第九章 Delta lake数据分享,这章比较简单,介绍了一些直接读取delta lake文件的方法,还不如官方文档详细。

第十章 给出了一个完整的数据湖架构,后面如果真的能用于生产可以参考。

读完了整本书,有两个感觉:

1、还是要深入学习一下spark,为了后面能兼容AI,还是从pyspark入手,后面计划学习一下pyspark,然后再看看pyspark如何与pytorch等深度学习架构融合。

2、学习技术只是入门,具体还要以项目来验证,因为只有通过项目才能挖掘出一下书本没有说的情况,所以还是要结合实际,希望后面能把Delta lake用于实际项目,我始终相信机会总是留给有准备的人。

最后把最近几天写的代码公开,欢迎高手指教,谢谢。
kengan1013/Detla-lake-with-java

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/605726.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

靠谱二次元行研组:2024年国产动画番剧趋势报告

靠谱二次元行研组 根据靠谱二次元(公众号ID:kpACGN)统计,2023年全年累计在播动画番 剧超140部,有更新的年番超过15部。其中有123部国产动画番剧新开播,涉 及110个IP,80家制作公司,新…

Cloudera的简介及安装部署

简介 Cloudera是一家位于美国的软件公司,成立于2008年,专注于为企业客户提供基于Apache Hadoop的软件、支持、服务以及培训。Cloudera的开源Apache Hadoop发行版,即Cloudera Distribution including Apache Hadoop(CDH&am…

基于YOLOv5的火焰目标检测(代码+数据集+训练好的模型)

基于YOLOv5的火焰目标检测项目是一个旨在实时识别和定位视频或图像中火焰区域的计算机视觉应用。YOLOv5是YOLO(You Only Look Once)系列目标检测模型的一个高效版本,以其快速、准确且易于部署的特点而受到青睐。 技术背景 YOLOv5&#xff1…

C++进阶之路:探索访问限定符、封装与this指针的奥秘(类与对象_上篇)

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。&am…

C++ list介绍(迭代器失效)

一、常用接口 reverse逆置 sort排序&#xff08;默认升序&#xff09; 仿函数greater<int> merge合并&#xff0c;可以全部合并&#xff0c;也可以一部分合并 unique&#xff1a;去重&#xff08;先排序&#xff0c;再去重&#xff09; remove&#xff1a;删除e值&#…

Django之rest_framework(六)

一、GenericViewSet类的使用 继承自GenericAPIView,作用也与GenericAPIVIew类似,提供了get_object、get_queryset等方法便于视图的开发 1.1、代码 from rest_framework.viewsets import GenericViewSet from rest_framework.response import Response from rest_framework …

基于Springboot+Vue+Java的校园资料分享平台

&#x1f49e; 文末获取源码联系 &#x1f649; &#x1f447;&#x1f3fb; 精选专栏推荐收藏订阅 &#x1f447;&#x1f3fb; &#x1f380;《Java 精选实战项目-计算机毕业设计题目推荐-期末大作业》&#x1f618; 更多实战项目~ https://www.yuque.com/liuyixin-rotwn/ei3…

【前端热门框架【vue框架】】——对组件进行更加简洁合理的处理和解释(一)

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;程序员-曼亿点 &#x1f468;‍&#x1f4bb; hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! &#x1f468;‍&#x1f4bb; 本文由 曼亿点 原创 &#x1f468;‍&#x1f4bb; 收录于专栏&#xff1a…

css mix-blend-mode 层叠样式属性各类效果

官方给出的定义是&#xff1a;mix-blend-mode css 属性描述了元素的内容应该与元素的直系父元素的内容和元素的背景如何混合。 通俗来讲&#xff0c;就是一张图片跟它的父级元素背景色的融合方式。 大致分为以下16种&#xff1a; mix-blend-mode: normal; mix-blend-mode: m…

QT--day3

1、mywidget.h #ifndef MYWIDGET_H #define MYWIDGET_H #include <QWidget> #include<QIcon> //图标类 #include<QLabel> //标签类 #include<QMovie> //动图类 #include<QLineEdit> //行编辑器类 #include<QPushButton> //按钮类 #include…

美团二面:SpringBoot读取配置优先级顺序是什么?

引言 Spring Boot作为一种轻量级的Java应用程序框架&#xff0c;以其开箱即用、快速搭建新项目的特性赢得了广大开发者的青睐。其核心理念之一就是简化配置过程&#xff0c;使开发者能够快速响应复杂多变的生产环境需求。为了实现这一点&#xff0c;Spring Boot支持丰富的外部…

智慧旅游推动旅游服务智慧化转型:借助智能科技的力量,实现旅游资源的精准匹配和高效利用,为游客提供更加便捷、舒适的旅游环境

目录 一、引言 二、智慧旅游的定义与特点 &#xff08;一&#xff09;智慧旅游的定义 &#xff08;二&#xff09;智慧旅游的特点 三、智能科技在旅游服务中的应用 &#xff08;一&#xff09;大数据分析助力旅游决策 &#xff08;二&#xff09;人工智能实现个性化推荐…

【C++】map和set的基础详解

&#x1f490; &#x1f338; &#x1f337; &#x1f340; &#x1f339; &#x1f33b; &#x1f33a; &#x1f341; &#x1f343; &#x1f342; &#x1f33f; &#x1f344;&#x1f35d; &#x1f35b; &#x1f364; &#x1f4c3;个人主页 &#xff1a;阿然成长日记 …

【使用ChatGPT的API之前】OpenAI API提供的可用模型

文章目录 一. ChatGPT基本概念二. OpenAI API提供的可用模型1. InstructGPT2. ChatGPT3. GPT-4 三. 在OpenAI Playground中使用GPT模型-ing 在使用GPT-4和ChatGPT的API集成到Python应用程序之前&#xff0c;我们先了解ChatGPT的基本概念&#xff0c;与OpenAI API提供的可用模型…

SpringBoot Actuator未授权访问漏洞的解决方法

1. 介绍 Spring Boot Actuator 是一个用于监控和管理 Spring Boot 应用程序的功能模块。它提供了一系列生产就绪的功能&#xff0c;帮助你了解应用程序的运行状况&#xff0c;以及在运行时对应用程序进行调整。Actuator 使用了 Spring MVC 来暴露各种 HTTP 或 JMX 端点&#x…

WOA-SVM多变量分类预测|基于鲸鱼优化算法的支持向量机|Matalb

目录 一、程序及算法内容介绍&#xff1a; 基本内容&#xff1a; 亮点与优势&#xff1a; 二、实际运行效果&#xff1a; 三、算法介绍&#xff1a; 四、完整程序下载&#xff1a; 一、程序及算法内容介绍&#xff1a; 基本内容&#xff1a; 本代码基于Matlab平台编译&am…

stm32f103zet6_RTC_1_介绍

RTC简介 实时时钟是一个独立的定时器。 RTC模块拥有一组连续计数的计数器&#xff0c;在相应软件配置下&#xff0c;可 提供时钟日历的功能。 修改计数器的值可以重新设置系统当前的时间和日期。 RTC模块和时钟配置系统(RCC_BDCR寄存器)处于后备区域&#xff0c;即在系统复…

工采电子国产D类音频放大器iML6602可以替代TPA3118

iML6602是一款高集成度、高效率的双声道D类音频功率放大器&#xff1b;支持BTL和PBTL两种模式输出&#xff0c;供电电压范围4.5V ~ 26V&#xff1b;双通道BTL模式下输出功率 230W&#xff08;8Ω&#xff0c;24V&#xff0c;THDN0.1%&#xff09;单通道PBTL模式下可以输出60W&a…

Python中的函数定义(def)详解

Python中的函数定义&#xff08;def&#xff09;详解 在编程语言中&#xff0c;函数是组织代码的一种方式&#xff0c;它们可以帮助我们将复杂的程序拆分为简单、易管理的部分。在Python中&#xff0c;函数的定义使用def关键字。 什么是函数&#xff1f; 函数是一段完成特定…
最新文章