【大数据】Hudi 核心知识点详解(二)

😊 如果您觉得这篇文章有用 ✔️ 的话,请给博主一个一键三连 🚀🚀🚀 吧 (点赞 🧡、关注 💛、收藏 💚)!!!您的支持 💖💖💖 将激励 🔥 博主输出更多优质内容!!!

  • Hudi 核心知识点详解(一)
  • Hudi 核心知识点详解(二)

Hudi 核心知识点详解(二)

  • 4.Hudi 核心点解析
    • 4.1 基本概念
      • 4.1.1 时间轴 Timeline
      • 4.1.2 文件管理
      • 4.1.3 索引 Index
    • 4.2 表的存储类型
      • 4.2.1 数据计算模型
        • 4.2.1.1 批式模型(Batch)
        • 4.2.1.2 流式模型(Stream)
        • 4.2.1.3 增量模型(Incremental)
      • 4.2.2 查询类型(Query Type)
        • 4.2.2.1 快照查询(Snapshot Queries)
        • 4.2.2.2 增量查询(Incremental Queries)
        • 4.2.2.3 读优化查询(Read Optimized Queries)
      • 4.2.3 Hudi 支持表类型
        • 4.2.3.1 写时复制表(COW)
        • 4.2.3.2 读时合并表(MOR)
        • 4.2.3.3 COW VS MOR
      • 4.2.4 数据写操作类型
        • 4.2.4.1 写流程(UPSERT)
        • 4.2.4.2 写流程(INSERT)

4.Hudi 核心点解析

4.1 基本概念

Hudi 提供了 Hudi 表的概念,这些表支持 CRUD 操作,可以利用现有的大数据集群比如 HDFS 做数据文件存储,然后使用 SparkSQL 或 Hive 等分析引擎进行数据分析查询。

在这里插入图片描述

Hudi 表的三个主要组件:

  • ✅ 有序的时间轴元数据,类似于数据库事务日志。
  • ✅ 分层布局的数据文件:实际写入表中的数据。
  • ✅ 索引(多种实现方式):映射包含指定记录的数据集。

4.1.1 时间轴 Timeline

Hudi 核心:

  • 在所有的表中维护了一个包含在不同的即时(Instant)时间对数据集操作(比如新增、修改或删除)的时间轴(Timeline)。
  • 在每一次对 Hudi 表的数据集操作时都会在该表的 Timeline 上生成一个 Instant,从而可以实现在仅查询某个时间点之后成功提交的数据,或是仅查询某个时间点之前的数据,有效避免了扫描更大时间范围的数据。
  • 可以高效地只查询更改前的文件(如在某个 Instant 提交了更改操作后,仅 query 某个时间点之前的数据,则仍可以 query 修改前的数据)。

在这里插入图片描述
Timeline 是 Hudi 用来管理提交(commit)的抽象,每个 commit 都绑定一个固定时间戳,分散到时间线上。

在 Timeline 上,每个 commit 被抽象为一个 Hoodie Instant,一个 Instant 记录了一次提交(commit)的 行为时间戳、和 状态

在这里插入图片描述
图中采用时间(小时)作为分区字段,从 10 : 00 10:00 10:00 开始陆续产生各种 commits 10 : 20 10:20 10:20 来了一条 9 : 00 9:00 9:00 的数据,该数据仍然可以落到 9 : 00 9:00 9:00 对应的分区,通过 Timeline 直接消费 10 : 00 10:00 10:00 之后的增量更新(只消费有新 commitsgroup),那么这条延迟的数据仍然可以被消费到。

时间轴(Timeline)的实现类(位于 hudi-common-xx.jar 中),时间轴相关的实现类位于 org.apache.hudi.common.table.timeline 包下。

在这里插入图片描述

4.1.2 文件管理

Hudi 将 DFS 上的数据集组织到基本路径(HoodieWriteConfig.BASEPATHPROP)下的目录结构中。

数据集分为多个分区(DataSourceOptions.PARTITIONPATHFIELDOPT_KEY),这些分区与 Hive 表非常相似,是包含该分区的数据文件的文件夹。

在这里插入图片描述
在每个分区内,文件被组织为文件组,由文件 id 充当唯一标识。每个文件组包含多个文件切片,其中每个切片包含在某个即时时间的提交 / 压缩生成的基本列文件(.parquet)以及一组日志文件(.log),该文件包含自生成基本文件以来对基本文件的插入 / 更新。

在这里插入图片描述
Hudi 的 base file (parquet 文件) 在 footermeta 去记录了 record key 组成的 BloomFilter,用于在 file based index 的实现中实现高效率的 key contains 检测。

Hudi 的 logavro 文件)是自己编码的,通过积攒数据 buffer 以 LogBlock 为单位写出,每个 LogBlock 包含 magic numbersizecontentfooter 等信息,用于数据读、校验和过滤。

在这里插入图片描述

4.1.3 索引 Index

Hudi 通过索引机制提供高效的 Upsert 操作,该机制会将一个 RecordKey + PartitionPath 组合的方式作为唯一标识映射到一个文件 ID,而且这个唯一标识和文件组 / 文件 ID 之间的映射自记录被写入文件组开始就不会再改变。

  • 全局索引:在全表的所有分区范围下强制要求键保持唯一,即确保对给定的键有且只有一个对应的记录。
  • 非全局索引:仅在表的某一个分区内强制要求键保持唯一,它依靠写入器为同一个记录的更删提供一致的分区路径。

在这里插入图片描述

4.2 表的存储类型

4.2.1 数据计算模型

Hudi 是 Uber 主导开发的开源数据湖框架,所以大部分的出发点都来源于 Uber 自身场景,比如司机数据和乘客数据通过订单 Id 来做 Join 等。

在 Hudi 过去的使用场景里,和大部分公司的架构类似,采用批式和流式共存的 Lambda 架构,后来 Uber 提出增量 Incremental 模型,相对批式来讲,更加实时;相对流式而言,更加经济。

在这里插入图片描述

4.2.1.1 批式模型(Batch)

批式模型就是使用 MapReduce、Hive、Spark 等典型的批计算引擎,以小时任务或者天任务的形式来做数据计算。

  • 延迟:小时级延迟或者天级别延迟。这里的延迟不单单指的是定时任务的时间,在数据架构里,这里的延迟时间通常是定时任务间隔时间 + 一系列依赖任务的计算时间 + 数据平台最终可以展示结果的时间。数据量大、逻辑复杂的情况下,小时任务计算的数据通常真正延迟的时间是 2 − 3 2-3 23 小时。
  • 数据完整度:数据较完整。以处理时间为例,小时级别的任务,通常计算的原始数据已经包含了小时内的所有数据,所以得到的数据相对较完整。但如果业务需求是事件时间,这里涉及到终端的一些延迟上报机制,在这里,批式计算任务就很难派上用场。
  • 成本:成本很低。只有在做任务计算时,才会占用资源,如果不做任务计算,可以将这部分批式计算资源出让给在线业务使用。从另一个角度来说成本是挺高的,如原始数据做了一些增删改查,数据晚到的情况,那么批式任务是要全量重新计算。

在这里插入图片描述

4.2.1.2 流式模型(Stream)

流式模型,典型的就是使用 Flink 来进行实时的数据计算。

  • 延迟:很短,甚至是实时。
  • 数据完整度:较差。因为流式引擎不会等到所有数据到齐之后再开始计算,所以有一个 watermark 的概念,当数据的时间小于 watermark 时,就会被丢弃,这样是无法对数据完整度有一个绝对的保障。在互联网场景中,流式模型主要用于活动时的数据大盘展示,对数据的完整度要求并不算很高。在大部分场景中,用户需要开发两个程序,一是流式数据生产流式结果,二是批式计算任务,用于次日修复实时结果。
  • 成本:很高。因为流式任务是常驻的,并且对于多流 Join 的场景,通常要借助内存或者数据库来做 state 的存储,不管是序列化开销,还是和外部组件交互产生的额外 IO,在大数据量下都是不容忽视的。

在这里插入图片描述

4.2.1.3 增量模型(Incremental)

针对批式和流式的优缺点,Uber 提出了 增量模型Incremental Mode),相对批式来讲,更加实时;相对流式而言,更加经济。

增量模型,简单来讲,是以 mini batch 的形式来跑准实时任务。Hudi 在增量模型中支持了两个最重要的特性:

  • Upsert:这个主要是解决批式模型中,数据不能插入、更新的问题,有了这个特性,可以往 Hive 中写入增量数据,而不是每次进行完全的覆盖。(Hudi 自身维护了 keyfile 的映射,所以当 upsert 时很容易找到 key 对应的文件)
  • Incremental Query:增量查询,减少计算的原始数据量。以 Uber 中司机和乘客的数据流 Join 为例,每次抓取两条数据流中的增量数据进行批式的 Join 即可,相比流式数据而言,成本要降低几个数量级。

在这里插入图片描述

4.2.2 查询类型(Query Type)

Hudi 支持三种不同的查询表的方式:Snapshot QueriesIncremental QueriesRead Optimized Queries

在这里插入图片描述

4.2.2.1 快照查询(Snapshot Queries)
  • 查询某个增量提交操作中数据集的最新快照,先进行动态合并最新的基本文件(Parquet)和增量文件(Avro)来提供近实时数据集(通常会存在几分钟的延迟)。
  • 读取所有 partition 下每个 FileGroup 最新的 FileSlice 中的文件,Copy On Write 表读 parquet 文件,Merge On Read 表读 parquet + log 文件。

在这里插入图片描述

4.2.2.2 增量查询(Incremental Queries)
  • 仅查询新写入数据集的文件,需要指定一个 Commit / Compaction 的即时时间(位于 Timeline 上的某个 Instant)作为条件,来查询此条件之后的新数据。
  • 可查看自给定 commit / delta commit 即时操作以来新写入的数据,有效的提供变更流来启用增量数据管道。

在这里插入图片描述

4.2.2.3 读优化查询(Read Optimized Queries)
  • 直接查询基本文件(数据集的最新快照),其实就是列式文件(Parquet)。并保证与非 Hudi 列式数据集相比,具有相同的列式查询性能。
  • 可查看给定的 commit / compact 即时操作的表的最新快照。
  • 读优化查询和快照查询相同仅访问基本文件,提供给定文件片自上次执行压缩操作以来的数据。通常查询数据的最新程度的保证取决于压缩策略。

在这里插入图片描述

4.2.3 Hudi 支持表类型

Hudi 提供两类型表:写时复制Copy on WriteCOW)表和 读时合并Merge On ReadMOR)表。

  • 对于 Copy-On-Write Table,用户的 update 会重写数据所在的文件,所以是一个写放大很高,但是读放大为 0 0 0,适合 写少读多 的场景。
  • 对于 Merge-On-Read Table,整体的结构有点像 LSM-Tree,用户的写入先写入到 delta data 中,这部分数据使用行存,这部分 delta data 可以手动 merge 到存量文件中,整理为 parquet 的列存结构。

在这里插入图片描述

4.2.3.1 写时复制表(COW)

Copy on Write 简称 COW,顾名思义,它是在数据写入的时候,复制一份原来的拷贝,在其基础上添加新数据。

正在读数据的请求,读取的是最近的完整副本,这类似 MySQL 的 MVCC 的思想。

在这里插入图片描述

  • ✅ 优点:读取时,只读取对应分区的一个数据文件即可,较为高效。
  • ⭕ 缺点:数据写入的时候,需要复制一个先前的副本再在其基础上生成新的数据文件,这个过程比较耗时。

在这里插入图片描述
COW 表主要使用列式文件格式(Parquet)存储数据,在写入数据过程中,执行同步合并,更新数据版本并重写数据文件,类似 RDBMS 中的 B-Tree 更新。

  • 更新 update:在更新记录时,Hudi 会先找到包含更新数据的文件,然后再使用更新值(最新的数据)重写该文件,包含其他记录的文件保持不变。当突然有大量写操作时会导致重写大量文件,从而导致极大的 I/O 开销。
  • 读取 read:在读取数据时,通过读取最新的数据文件来获取最新的更新,此存储类型适用于少量写入和大量读取的场景。
4.2.3.2 读时合并表(MOR)

Merge On Read 简称 MOR,新插入的数据存储在 delta log 中,定期再将 delta log 合并进行 parquet 数据文件。

读取数据时,会将 delta log 跟老的数据文件做 merge,得到完整的数据返回。下图演示了 MOR 的两种数据读写方式。

在这里插入图片描述

  • ✅ 优点:由于写入数据先写 delta log,且 delta log 较小,所以写入成本较低。
  • ⭕ 缺点:需要定期合并整理 compact,否则碎片文件较多。读取性能较差,因为需要将 delta log 和老数据文件合并。

MOR 表是 COW 表的升级版,它使用列式(parquet)与行式(avro)文件混合的方式存储数据。在更新记录时,类似 NoSQL 中的 LSM-Tree 更新。

  • 更新:在更新记录时,仅更新到增量文件(Avro)中,然后进行异步(或同步)的 compaction,最后创建列式文件(parquet)的新版本。此存储类型适合频繁写的工作负载,因为新记录是以追加的模式写入增量文件中。
  • 读取:在读取数据集时,需要先将增量文件与旧文件进行合并,然后生成列式文件成功后,再进行查询。
4.2.3.3 COW VS MOR

对于写时复制(COW)和读时合并(MOR)writer 来说,Hudi 的 WriteClient 是相同的。

  • 🚀 COW 表,用户在 snapshot 读取的时候会扫描所有最新的 FileSlice 下的 base file
  • 🚀 MOR 表,在 READ OPTIMIZED 模式下,只会读最近的经过 compactioncommit
权衡写时复制 COW读时合并 MOR
数据延迟更高更低
更新代价(I/O)更高(重写整个 parquet 文件)更低(追加到增量日志)
Parquet 文件大小更小(高更新代价(I/O))更大(低更新代价)
写放大更高更低(取决于压缩策略)
适用场景写少读多写多读少

4.2.4 数据写操作类型

在 Hudi 数据湖框架中支持三种方式写入数据:UPSERT插入更新)、INSERT插入)和 BULK INSERT写排序)。

  • UPSERT:默认行为,数据先通过 index 打标(INSERT / UPDATE),有一些启发式算法决定消息的组织以优化文件的大小。

  • INSERT:跳过 index,写入效率更高

  • BULK INSERT:写排序,对大数据量的 Hudi 表初始化友好,对文件大小的限制 best effort(写 HFile)。

在这里插入图片描述

4.2.4.1 写流程(UPSERT)

1️⃣ Copy On Write 类型表,UPSERT 写入流程

  • 第一步:先对 records 按照 record key 去重。
  • 第二步:首先对这批数据创建索引 (HoodieKeyHoodieRecordLocation);通过索引区分哪些 recordsupdate,哪些 recordsinsertkey 第一次写入)。
  • 第三步:对于 update 消息,会直接找到对应 key 所在的最新 FileSlice 的 base 文件,并做 merge 后写新的 base file (新的 FileSlice)。
  • 第四步:对于 insert 消息,会扫描当前 partition 的所有 SmallFile(小于一定大小的 base file),然后 merge 写新的 FileSlice;如果没有 SmallFile,直接写新的 FileGroup + FileSlice

2️⃣ Merge On Read 类型表,UPSERT 写入流程

  • 第一步:先对 records 按照 record key 去重(可选)。
  • 第二步:首先对这批数据创建索引 (HoodieKeyHoodieRecordLocation);通过索引区分哪些 recordsupdate,哪些 recordsinsertkey 第一次写入)。
  • 第三步:如果是 insert 消息,如果 log file 不可建索引(默认),会尝试 merge 分区内最小的 base file (不包含 log file 的 FileSlice),生成新的 FileSlice;如果没有 base file 就新写一个 FileGroup + FileSlice + base file;如果 log file 可建索引,尝试 append 小的 log file,如果没有就新写一个 FileGroup + FileSlice + base file
  • 第四步:如果是 update 消息,写对应的 file group + file slice,直接 append 最新的 log file(如果碰巧是当前最小的小文件,会 merge base file,生成新的 file slicelog file 大小达到阈值会 roll over 一个新的。
4.2.4.2 写流程(INSERT)

1️⃣ Copy On Write 类型表,INSERT 写入流程

  • 第一步:先对 records 按照 record key 去重(可选);
  • 第二步:不会创建 Index
  • 第三步:如果有小的 base file 文件,merge base file,生成新的 FileSlice + base file,否则直接写新的 FileSlice + base file

2️⃣ Merge On Read 类型表,INSERT 写入流程

  • 第一步:先对 records 按照 record key 去重(可选);
  • 第二步:不会创建 Index
  • 第三步:如果 log file 可索引,并且有小的 FileSlice,尝试追加或写最新的 log file;如果 log file 不可索引,写一个新的 FileSlice + base file

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/234979.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《使用ThinkPHP6开发项目》 - 创建应用

《使用ThinkPHP6开发项目》 - 安装ThinkPHP框架-CSDN博客 《使用ThinkPHP6开发项目》 - 设置项目环境变量-CSDN博客 《使用ThinkPHP6开发项目》 - 项目使用多应用开发-CSDN博客 根据前面的步骤,我们现在就可以开发我们的项目开发了,根据项目开发的需要…

超过 50% 的内部攻击使用特权提升漏洞

特权提升漏洞是企业内部人员在网络上进行未经授权的活动时最常见的漏洞,无论是出于恶意目的还是以危险的方式下载有风险的工具。 Crowdstrike 根据 2021 年 1 月至 2023 年 4 月期间收集的数据发布的一份报告显示,内部威胁正在上升,而利用权…

使用eXtplorer本地搭建文件管理器并内网穿透远程访问本地数据

文章目录 1. 前言2. eXtplorer网站搭建2.1 eXtplorer下载和安装2.2 eXtplorer网页测试2.3 cpolar的安装和注册 3.本地网页发布3.1.Cpolar云端设置3.2.Cpolar本地设置 4.公网访问测试5.结语 1. 前言 通过互联网传输文件,是互联网最重要的应用之一,无论是…

Mac电脑投屏AirServer 2024怎么下载安装激活许可期限

对于那些想要将 iPhone、iPad 或其他 iOS 设备上的小屏幕镜像到计算机上的大屏幕的人来说,AirPlay 是一个很好的工具。 基于此,AirServer 非常需要将您的 Mac 或 PC 变成 AirPlay 设备。 但是如何使用计算机上的设置对 iPhone 等 iOS 设备进行屏幕镜像&a…

epoll实现同时承载100w客户端的数量

概念 先表明,这里是让epoll能够同时承受100w的连接,不针对业务处理。 对于百万并发的业务处理,其前提条件就是要同时承受住100w的连接。 程序源码 epoll的源码直接给出来 /*支持百万并发的 reactor1.其主要限制在于Linux系统的限制,需要修改一…

基于SpringBoot+JSP+Mysql宠物领养网站+协同过滤算法推荐宠物(Java毕业设计)

大家好,我是DeBug,很高兴你能来阅读!作为一名热爱编程的程序员,我希望通过这些教学笔记与大家分享我的编程经验和知识。在这里,我将会结合实际项目经验,分享编程技巧、最佳实践以及解决问题的方法。无论你是…

大厂算法指南:优选算法 ——双指针篇(上)

大厂算法指南:优选算法 ——双指针篇(上) 前言:双指针简介一、[283.移动零](https://leetcode.cn/problems/move-zeroes/)1.1 算法思想(快排的思想:数组划分区间 - 数组分两块)1.2 算法流程1.3 …

neuq-acm预备队训练week 8 P8794 [蓝桥杯 2022 国 A] 环境治理

题目描述 输入格式 输出格式 输出一行包含一个整数表示答案。 输入输出样例 解题思路 最短路二分 AC代码 #include<bits/stdc.h> using namespace std; long long temp,n, Q; long long f[105][105],min_f[105][105],cut[105],dis[105][105];//cut为减少多少&#x…

在 Qt Creator 中编写 Doxygen 风格的注释

2023年12月10日&#xff0c;周日上午 如何生成Doxygen 风格的注释 在需要Doxygen 风格注释的函数上方输入 /**&#xff0c;然后按下 Enter 键。Qt Creator 将自动为你生成一个注释模板。 输入&#xff0c;Qt Creator会自动帮你补全Doxygen标签 不得不说&#xff0c;写了Doxyge…

【HarmonyOS开发】详解常见容器的使用

声明式UI提供了以下8种常见布局&#xff0c;开发者可根据实际应用场景选择合适的布局进行页面开发。 布局 应用场景 线性布局&#xff08;Row、Column&#xff09; 如果布局内子元素超过1个&#xff0c;且能够以某种方式线性排列时优先考虑此布局。 层叠布局&#xff08;St…

使用alpine镜像部署go应用时踩的坑

使用alpine镜像部署go应用时踩的坑 关于交叉编译 实际上我在ubuntu的交叉编译出来的exe并不能在alpine上运行&#xff0c;这边采取拉镜像编译复制出来的做法&#xff0c;部署再用干净的alpine 拉取golang:alpine踩坑 在Dockerhub上可以找到&#xff1a; 然而拉取的alpine中…

Cpolar配置外网访问和Dashy

Dashy是一个开源的自托管的导航页配置服务,具有易于使用的可视化编辑器、状态检查、小工具和主题等功能。你可以将自己常用的一些网站聚合起来放在一起,形成自己的导航页。一款功能超强大,颜值爆表的可定制专属导航页工具 结合cpolar内网工具,我们实现无需部署到公网服务器…

周周清(2)----踩坑日记

周一&#xff1a; 1.之前换了一个jdk&#xff0c;然后又改了很多东西&#xff0c;很乱&#xff0c;以至于很多项目都不能直接运行了&#xff0c;所以今天就将ideal删除并且更新版本到2022.3.3&#xff0c;并且重新将ideal里面的配置环境变量&#xff0c;以及jdk下载安装配置&a…

【论文阅读笔记】NeRF+Mip-NeRF+Instant-NGP

目录 前言NeRF神经辐射场体渲染连续体渲染体渲染离散化 方法位置编码分层采样体渲染推导公式&#xff08;1&#xff09;到公式&#xff08;2&#xff09;部分代码解读相机变换&#xff08;重要&#xff01;&#xff09; Mip-NerfTo do Instant-NGPTo do 前言 NeRF是NeRF系列的…

【unity小技巧】实现枪武器随镜头手臂摇摆效果

文章目录 前言方法一、改变武器位置方法二、改变武器旋转结语完结 前言 如果我们视角移动转向&#xff0c;武器如果不跟着进行摇摆&#xff0c;会感觉我们的动作很生硬&#xff0c;特别是射击类游戏&#xff0c;如下 实现武器摇摆这里主要分享两种实现方法&#xff0c;一种是…

git学习笔记03(小滴课堂)

详解分支的基本操作 创建分支&#xff1a; 查看分支&#xff1a; 切换分支&#xff1a; git branch 中星号是当前分支。 idea中也更新了。 提交上去。 我们新建个分支&#xff1a; 我们新建分支是复制当前分支&#xff0c;而不是直接复制的主分支。 我们切换回主分支&#xf…

Docker 入门

Docker 入门 基础 不同操作系统下其安装包、运行环境是都不相同的&#xff01;如果是手动安装&#xff0c;必须手动解决安装包不同、环境不同的、配置不同的问题 而使用Docker&#xff0c;这些完全不用考虑。就是因为Docker会自动搜索并下载MySQL。注意&#xff1a;这里下载…

TeeChart.NET 2023.11.17 Crack

.NET 的 TeeChart 图表控件提供了一个出色的通用组件套件&#xff0c;可满足无数的图表需求&#xff0c;也针对重要的垂直领域&#xff0c;例如金融、科学和统计领域。 数据可视化 数十种完全可定制的交互式图表类型、地图和仪表指示器&#xff0c;以及完整的功能集&#xff0c…

【Spring Boot 源码学习】ApplicationListener 详解

Spring Boot 源码学习系列 ApplicationListener 详解 引言往期内容主要内容1. 初识 ApplicationListener2. 加载 ApplicationListener3. 响应应用程序事件 总结 引言 书接前文《初识 SpringApplication》&#xff0c;我们从 Spring Boot 的启动类 SpringApplication 上入手&am…

使用WebyogSQLyog使用数据库

数据库 实现数据持久化到本地&#xff1a; 使用完整的管理系统统一管理&#xff0c; 数据库&#xff08;DateBase&#xff09;&#xff1a; 为了方便数据存储和管理&#xff08;增删改查&#xff09;&#xff0c;将数据按照特定的规则存储起来 安装WebyogSQLyog -- 创建数…
最新文章