新一代湖仓集存储,多模型统一架构,高效挖掘数据价值

星环科技TDH一直致力于给用户带来高性能、高可靠的一站式大数据基础平台,满足对海量数据的存储和复杂业务的处理需求。

同时在易用性方面持续深耕,降低用户开发和运维成本,让数据处理平民化,助力用户以更便捷、高效的方式去挖掘数据价值。

基于这样的宗旨,星环科技TDH正式发布了9.3版本。

推出了新一代湖仓集存储格式Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求。

避免数据冗余,减少数据流转,提升业务综合性能与时效性。

同时,分布式计算引擎实现了向量化升级,综合性能大幅度提升。

此外,TDH 9.3对多模型统一技术架构进行了迭代升级,全新发布分布式向量数据库Transwarp Hippo。

共支持11种模型数据统一存储管理,用统一查询处理语言完成跨模型数据流转与关联分析,让业务开发更加便捷。

新一代湖仓集一体架构

打破湖仓集边界

传统湖仓集混合架构,需要部署多个平台进行数据存储,造成数据冗余和存储资源浪费。

其次,数据需要跨平台ETL流转,流转开销高,时效性较差。数据跨平台流转中还容易导致不⼀致,影响业务正确性。

此外,多平台的开发标准不一致,存在一定的技术门槛,权限管理复杂。

当需要跨层数据时,严重依赖其他部门的数据⼯程师、数据科学家来加⼯数据,对数据分析师来说,数据分析探索的效率大大降低。

TDH9.3 打破数据湖、数据仓库、数据集市的边界,基于湖仓集一体平台,所有人都可以访问实时的数据、历史的数据、原始的数据、加工过的数据。

如业务分析师可以直接访问最原始的数据,数据工程师可以更高效地建模,数据科学家可以横跨不同的数据源进行数据分析和挖掘。

基于TDH9.3湖仓集一体架构,各种类型的数据通过数据集成工具,通过离线或者实时的方式加载到TDH中,结构化数据统⼀由Holodesk来承载湖仓集的存储。

通过统⼀SQL引擎和统⼀计算引擎,实现湖仓集数据的统⼀处理、查询、加工,支撑多种应⽤场景。

配合统⼀的运维、审计、权限、告警等功能实现平台的统⼀管理,避免重复建设。

一种存储格式,满足湖仓集关系型数据存储需求

TDH 9.3将之前的⾼性能存储格式Holodesk进行了重构,只需一个存储格式即可同时满足湖仓集的数据接入、数仓加工和高性能数据分析。

在全新的存储引擎下,可以将湖仓集的所有数据都放在统一的存储格式里,不需要针对不同的建设去使用不同的存储引擎。

能够同时⽀持离线批量数据和实时数据的接入,同时也支持高性能的模型加工、批处理、在线分析等计算需求。

相比ORC,更多功能、更高性能 相比于之前版本的ORC事务表,TDH9.3的Holodesk具有更多的功能和更高的性能。

  • 无需手工分桶:ORC事务表需要手动分桶,对开发和运维人员是非常大的挑战。TDH9.3 Holodesk不需要手动分桶,存储引擎自动做数据切片和分布式,用户无需关注分桶数,大幅简化了建表流程和成本。
  • 非分桶文件自动合并:Holodesk具有更灵活,更多策略的文件管理系统,自动将任意的非分桶文件按照合适的大小进行合并,避免桶文件过大或过小的情况,减少运维上的投入。
  • 高频实时数据写入:实时场景下,Holodesk支持实时流计算引擎Slipstream的实时数据写入和Batch Insert批量写入,满足数据湖的实时数据接入需求。
  • 性能数倍提升:Holodesk的IO性能是ORC事务表的10倍以上,在TPC-DS 1TB数据集测试中,相⽐于ORC事务表,TDH 9.3 Holodesk的性能提升了3倍。

相比开源湖仓,创新技术降本增效 相比于开源湖仓技术,如Hudi / Iceberg等,TDH湖仓集一体在多项技术方面实现了提升和创新,帮助用户降低开发运维成本,提高开发分析效率,提升数据处理分析性能。

  • 四种事务隔离级别:开源湖仓技术一般是基于快照的事务隔离,而TDH支持完整四种事务隔离级别,特别是在复杂的高并发比数仓业务场景下,用户可以根据业务需求调整事务隔离级别,满足不同事务处理的要求。
  • 小文件灵活、自动合并:开源湖仓技术小文件需要手工合并管理,需要通过代码来调⽤,维护成本较⾼。TDH具备灵活的多策略、独⽴资源来自动合并小文件,维护成本更低,读取性能更好。
  • 实时数据快速读写:开源湖仓技术的实时数据写入基于Merge on Read,虽然写得快,但读起来很慢。TDH9.3优化了实时数据写入的合并逻辑,避免大量文件在读时再合并,实现写快读快,具有更好的分析和加工性能。
  • 无需流转,湖仓集一体化存储:开源湖仓技术在集市分析场景下需要流转到外部分析引擎中,而基于TDH9.3的湖仓集一体架构,实现了湖仓集统一存储格式,数据⼀体化存储不冗余,也无额外数据流转开销,整体系统复杂度更低,综合时效性和性能更强。

向量化计算引擎升级,引入CodeGen技术

TDH9.3在存储升级的同时,向量化计算引擎引入了CodeGen代码生成技术,将复杂的、高开销的算⼦代码⽣成为能更⾼效调⽤GPU指令集的Native Code。生成的Native Code逻辑更简单。

避免了多余的运算和函数调⽤,运⾏更⾼效,同时Native引擎也不会GC(垃圾回收),避免因GC导致性能降低。

综合性能大幅提升,再破TPC性能巅峰

TDH是全球首个通过TPC-DS基准测试并经官方审计的产品,此次存储和计算引擎的双重升级,在TPC标准测试集中,TDH再⼀次突破了TPC-DS、TPC-BB、TPCx-HS 3个测试集的性能。

  • 在TPC-DS 10TB测试集中,TDH⽐当前公开的最好成绩,性能提升了27%。
  • 在TPC-BB 3T测试集中,TDH是当前公开的最好成绩的2倍,同时系统成本降低了67%。
  • 在TPC-HS 3T测试集中,TDH比当前公开的最好成绩,性能提升3%,同时系统成本降低了69%。

此外,经过很多实际业务的验证,通过将CDH业务迁到TDH上,简单的业务加工性能是CDH的1.26倍,复杂业务加工是2.69倍,并发跑批是2倍,业务查询是1.66倍。而在替换开源数据库GP后,TDH在复杂分析上基本上能实现4-9倍的性能提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/422019.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Node.js+vue校内二手物品交易系统tdv06-vscode前后端分离

二手物品交易系统采用B/S架构,数据库是MySQL。网站的搭建与开发采用了先进的nodejs进行编写,使用了vue框架。该系统从三个对象:由管理员和用户、店铺来对系统进行设计构建。主要功能包括:个人信息修改,对用户、店铺、二…

美剧推荐|2024值得期待的二十部美剧,你心里的TOP1是哪一部

关注公众号:萌番bilfun,发送影片名称,即可获取资源链接 2023必看十部美剧推荐: 面目全非,堡垒,暗夜情报员,猎魔人第三季,阿索卡,洲际酒店,怒呛人生&#xf…

Linux 学习笔记(8)

八、 启动引导 1 、 Linux 的启动流程 1) BIOS 自检 2) 启动 GRUB/LILO 3) 运行 Linux kernel 并检测硬件 4) 挂载根文件系统 5) 运行 Linux 系统的第一个进程 init( 其 PID 永远为 1 ,是所有其它进程的父进程 ) 6) init 读取系统引导配置文件…

2D割草/吸血鬼游戏 性能优化——GPU Spine动画

视频中万人同屏方案(gpu动画、渲染、索敌、避障等功能),可某宝搜店铺:【游戏开发资源商店】获取整套方案源码。 在过去的几年里,割草、类吸血鬼玩法的游戏频出爆款,其丰富的技能、满屏特效、刷怪清屏的解压畅快是此类游戏的核心&…

uni-app部署H5到相对路径,支持file协议打开

uni-app支持部署H5到相对路径,部署到服务端或在本地使用file协议打开均可 配置 在manifest.json文件中配置,Web配置->运行的基础路径配置为./即可 例:/5/,代表在域名的/5目录下部署运行。如设为./,则代表相对路径&#xff0c…

TCP为什么要三次握手?

TCP三次握手协议是为了在不可靠的互联网环境中可靠地建立起一个连接,三次握手可以确保两端的发送和接收能力都是正常的。 那么,为什么是三次而不是二次或四次握手呢? 为什么不是二次握手? 如果是二次握手,即客户端发…

QT TCP传输文件+ui

TCPFile tcp协议传输文件 TCPFile.pro QT core gui networkclientwidget.h #include <QWidget> #include <QTcpSocket> // 通信套接字 #include <QFile>private slots:void on_pushButton_clicked();private:QTcpSocket *tcpSocket;QFile file; /…

openGauss学习笔记-232 openGauss性能调优-系统调优-资源负载管理-资源管理准备-资源规划

文章目录 openGauss学习笔记-232 openGauss性能调优-系统调优-资源负载管理-资源管理准备-资源规划 openGauss学习笔记-232 openGauss性能调优-系统调优-资源负载管理-资源管理准备-资源规划 完成资源负载管理功能配置前&#xff0c;需要先根据业务模型完成租户资源的规划。业…

2024年10个超炫酷的前端 3D 开源项目,那几个你用?

本文将分享 10 个超炫酷的前端 3D 开源项目。从令人惊叹的视觉效果到富有创新概念的交互体验&#xff0c;这些项目展示了前端技术的无限可能。无论你是新手还是经验丰富的开发者&#xff0c;都值得一探究竟&#xff01; 蛋仔派对&#xff08;three.js版&#xff09; 利用 Rea…

安卓使用ExoPlayer出现膨胀类异常

1.导包 implementation com.google.android.exoplayer:exoplayer-core:2.15.1implementation com.google.android.exoplayer:exoplayer-ui:2.15.1 2.在Androidifest.xml加入权限&#xff0c;我这里加了忘了与读写权限 <uses-permission android:name"android.permissio…

Crime Scene Report 犯罪现场报告 Python字符串处理

Crime Scene Report 犯罪现场报告 Victim and Suspect were hiking along a remote trail in the Mojave Desert. By the time Victim and Suspect were able to hike back to the trailhead and receive medical attention, Victim was in critical condition. Suspect repor…

用HTML5的<canvas>元素实现刮刮乐游戏

用HTML5的&#xff1c;canvas&#xff1e;元素实现刮刮乐游戏 用HTML5的<canvas>元素实现刮刮乐&#xff0c;要求&#xff1a;将上面的“图层”的图像可用鼠标刮去&#xff0c;露出下面的“图层”的图像。 示例从简单到复杂。 简单示例 准备两张图像&#xff0c;我这…

鸿蒙学习day1基础语法 基础变量类型

在这里插入图片描述 什么是变量&#xff1a;变量就是一些数据 如125&#xff0c;‘字符串数据’ 通过一个符号来表示 变量的定义 方法 let 变量名&#xff1a;变量类型 ’ 各种数据’ ,let是关键字&#xff0c;系统给的用来定义变量的 let name: string 张亚洲; let age: …

《求生之路2》服务器如何选择合适的内存和CPU核心数,以避免丢包和延迟高?

根据求生之路2服务器的实际案例分析选择合适的内存和CPU核心数以避免丢包和延迟高的问题&#xff0c;首先需要考虑游戏的类型和对服务器配置的具体要求。《求生之路2》作为一款多人在线射击游戏&#xff0c;其服务器和网络优化对于玩家体验至关重要。 首先&#xff0c;考虑到游…

Flutter中Widget的生命周期

Widget生命周期&#xff1a; createState-initState-didChangeDependency-build-deactive-dispose 可通过WidgetsBinding类对widget生命周期的回调进行监控。 createState&#xff1a;StatefulWidget 中用于创建 State&#xff1b; initState&#xff1a;State 的初始化操作&am…

Ubuntu22.04下在Spark2.4.0中采用Local模式配置并启动pyspark

目录 一、前言 二、版本信息 三、配置相关文件 1.修改spark-env.sh文件 2.修改.bashrc文件 四、安装Python3.5.2并更改默认Python版本 1.查看当前默认Python版本 2.安装Python3.5.2 2.1 下载Python源码 2.2 解压源码 2.3 配置安装路径 2.4 编译和安装 2.5 验证安装…

【计算机网络_应用层】协议定制序列化反序列化

文章目录 1. TCP协议的通信流程2. 应用层协议定制3. 通过“网络计算器”的实现来实现应用层协议定制和序列化3.1 protocol3.2 序列化和反序列化3.2.1 手写序列化和反序列化3.2.2 使用Json库 3.3 数据包读取3.4 服务端设计3.5 最后的源代码和运行结果 1. TCP协议的通信流程 在之…

c++/c图的邻近矩阵表示

#include<iostream> using namespace std;#define MaxVerterNum 100 typedef char VerterType; typedef int EdgeType; typedef struct {VerterType vexs[MaxVerterNum]; // 存储顶点EdgeType edges[MaxVerterNum][MaxVerterNum]; // 存储邻接矩阵int n, e; // 顶点数和边…

基于粒子群优化算法的图象聚类识别matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 基于粒子群优化算法的图象聚类识别。通过PSO优化方法&#xff0c;将数字图片的特征进行聚类&#xff0c;从而识别出数字0~9. 2.测试软件版本以及运行结果展示 M…

【NTN 卫星通信】使用地面网络和卫星网络接入的终端应用场景

1 场景概述 卫星接入有广覆盖的特点&#xff0c; 可以改善地面接入网覆盖或无线条件差的地区(例如多径干扰)的服务可用性。对于高速移动中需要实时业务的终端&#xff0c;如IMS语音/视频会议&#xff0c;可以通过地面接入和卫星接入同时实现与5G系统的双连接&#xff0c;在地面…
最新文章