镜舟科技客户成功团队负责人孟庆欢:湖仓一体将成为数据架构的新范式

a4d9c0f96cc25f8cf8cd5646fe83de42.jpeg

e6e37279fa2ad07f98f0633bf774c45e.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


随着数字化的概念逐步深入不同领域企业的运营中,业务形态和数字化路径也越来越丰富。这也为企业数据处理、储存的方式提出了更多要求。对于企业,尤其是数据驱动型企业来说,需要强大的解决方案来管理和分析整个组织中的大量数据,这些系统必须具有可伸缩性、可靠性和安全性,并且必须具有足够的灵活性以支持各种数据类型和使用场景。这些要求远远超出了任何传统数据库的能力,因此,数据仓库、数据湖等多种不同的架构逐渐成为了数据库行业的热门技术。

2024年1月17日,由数据猿和上海大数据联盟主办,上海市经济和信息化委员会、上海市科学技术委员会指导的“第六届金猿季&魔方论坛——大数据产业发展论坛”上,镜舟科技客户成功团队负责人孟庆欢在主题演讲中与到场嘉宾和观众们探讨了湖仓架构在数据价值释放中的角色。

镜舟科技成立于2022年,致力于建立湖仓架构下的数据分析创新产品帮助企业提升效率。其研发的镜舟分析型数据库、湖仓分析引擎,是基于StarRocks开发的国产企业级产品。镜舟分析型数据库在实时数仓、OLAP报表、数据湖分析等场景中满足客户多维复杂、实时、高并发的数据分析需求,帮助客户构建数据驱动的全新业务和管理模式。

镜舟湖仓分析引擎采用的湖仓架构作为一种先进的数据存储和管理方式,通过集成多源、多格式、大规模的数据,为企业提供了更灵活、高效的数据管理方案,成为释放数据价值的强大引擎。

d183622b2c985449b52c2baa93070707.jpeg

“四世同堂”的数据架构

在当前大数据分析架构下有两条主流的技术路线。一个是数据仓库,另一个是数据湖。

数据仓库是一种企业系统,用于分析和报告来自多个来源的结构化和半结构化数据,例如销售终端交易、营销自动化、客户关系管理等。数据仓库适用于点对点分析以及自定义报告。数据仓库可以将当前数据和历史数据都存储在一个地方,旨在提供长期数据视图,这使其成为商业智能的主要组成部分。

经过几十年的发展和产品更新迭代,数据仓库目前已经“四世同堂”:从最早期的关系型数据库,到中期 Hadoop 等数据仓库,一直延伸到云计算领域,包括云原生的数仓,和以 Snowflake 这类产品为代表的数仓路线。数据仓库的主要优点包括数据质量较高、查询性能较高、实时性强、数据治理难度低。

数据湖作为后起之秀,从2012年开始逐步发展,目前已经成为许多前沿企业落地数据应用的新一代底座。

数据湖提供了一个可伸缩的安全平台,使企业能够以任何速度从任何系统中提取任何数据,无论数据来自本地、云还是边缘计算系统;以全保真的方式存储任何类型或数量的数据;实时或批量处理数据;使用 SQL、Python、R 或任何其他语言、第三方数据或分析应用分析数据。

与数据仓库相比,数据湖同时由其“不”是什么来定义。它不仅仅是存储空间,也不完全等同于数据仓库。

在大模型快速发展的2023年,数据湖的应用也变得更加频繁。数据湖可以作为AI数据的底座,可以储存大模型训练所需的数据——数据湖的架构天然地支持AI训练。

虽然数据湖和数据仓库都能够存储一定容量的数据,但它们都针对不同用途进行了优化。总体来说,数据仓库通常适用于存储商业行为中常见的重复性报告和分析数据,如月度销售报告、每个区域的销售跟踪数据或网站流量。而数据湖主要是为处理大量大数据而开发的,公司通常可以将原始数据通过批量传输和/或流式传输的方式移动到数据湖中,而无需对其进行转换。两者之间是互补关系而非竞争关系,因此企业可能需要同时使用这两种技术。

“湖”与“仓”怎样结合?

同时使用两种技术在落地过程中有两种模式。

一种是“湖上建仓”,即将数据录入数据湖中,再在数据湖上叠加数据仓库,按照数据仓库模式将数据湖中的数据源源不断地放入仓库进行加工应用。这相当于将数据湖作为数据源使用,只是将数据先放入数据湖,然后再按需放入仓库进行应用。

第二种方式是“仓外挂湖”,即一部分数据储存在数据仓库中,一部分储存在数据湖中。当业务应用需要进行数据查询时,将数据放在湖里,利用数据仓的能力查询数据湖里的数据。

但是,无论是湖上建仓还是仓外挂湖,这两种模式的整体数据仍然割裂,仓库和湖里都有与外界不相通的部分数据,这给后续数据运维和管理增加了很多成本。

因此,一种将数据仓库和数据湖结合的架构就显得非常有必要了。

StarRocks就是一种将两者相结合的架构。

818dc7e45cbfe97d8f894381db26c0d7.png

孟庆欢介绍,用户可以选择现有的数据湖,或者直接选择 StarRocks作为数据湖。在此基础上,用户可以通过StarRocks的引擎能力构建BI报表应用、数据探查应用以及离线数据加工应用等。

与之前湖上建仓和仓外挂湖的区别在于,这种架构不再将数据和管理进行分散,而是一体化管理,并且在此基础上附加湖与仓的能力,形成湖仓一体的架构。

目前,StarRocks 已经在国内 300 多家市值超过 70 亿人民币的大规模公司中落地,开始逐步实现湖仓新范式。

企业在应用这种模式时,相当于对原有数据架构进行了一次全新的升级和改造。在这个过程中有一部分能力可以利用旧有的大数据架构,另一部分可以利用StarRocks的能力开通数据实时分析领域的新场景。

作为一种全新的范式,数据链路与湖的方式、仓的方式有了显著的区别。所有数据源都可以把StarRocks作为统一的数据湖仓入口进行写入。在这个过程中,如果业务应用希望使用湖中或者仓中的数据,可以通过物化视图能力,进行数据模型构建。这样,就可以逐步将原始数据根据物化视图的进行简化,不再像以前更新、操作数据时那样需要外置一个工具调度平台进行应用。

在整个分析过程中,数据库提供了统一的元数据管理模块,用户可以简单迅速的创建、维护不同数据源的原数据,并自动进行更新。利用这种方式,在后续的数据处理过程中会有一个相对完善的入口,基于此进行数据分析操作会非常方便。

在性能方面,以原有湖仓分析中经常用到的参数作为参照物,替换成StarRocks可以提升3倍以上的性能,资源和开发成本大幅度降低。

湖仓一体的实际应用

孟庆欢还分享了两个湖仓一体的实战案例。

在携程业务中,由于企业每天需要处理大量机票、酒店和旅行数据,业务人员需要访问的报表数据量非常大。原有模式导入的成本非常高,并且在数据更新方面的支持并不完善,因此一旦数据发生变化,需要重新刷新整个数据,成本相对较高。

另外,导入的数据与原始数据之间存在一定的数据时效性滞后,导致数据之间无法严格保持一致。这导致业务在访问时也会频繁出现问题。同时,在查询时,原有的性能已经无法满足日益高涨的数据查询性能要求。

因此基于这些痛点,携程实验了StarRocks替换原有架构。首先能带来的性能提升是查询,查询速度提高了7倍以上。StarRocks整体兼容了原有系统,因此在整个业务切换过程中完全无感。前一天把数据整合好后,第二天直接进行切换,业务只能体会到速度的增加,完全感觉不到使用习惯上的变化。

另一个案例是小红书,小红书是年轻人的社交分享平台,其后台数据访问量非常巨大,有上万张的数据运营报表,每天要处理的数据量极高。原有架构需要维护庞大的数据分析机器资源,替换为StarRocks后,企业节省了一半服务器的数据资源也可以实现原有需求。

在替换StarRocks之后,企业数据处理的整体性能和成本都发生了变化。总体而言,当企业应用湖仓的分析架构替换原有的数据仓库和数据湖的架构之后,整个应用模式会更加简单,数据无需反复处理。整体服务器资源或应用资源也会更加可控,无需为不可控成本付出时间和精力。企业可以按照业务逻辑加工的口径,按需进行数据加工和实际应用。

镜舟科技的产品镜舟湖仓分析引擎是基于 StarRocks 开发的企业级产品,致力于帮助企业建立“极速统一”的湖仓分析新范式,满足金融政企客户对技术支持、解决方案、生态建设、售后保障等方面的极致要求。

镜舟湖仓分析引擎既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。镜舟湖仓分析引擎兼容 MySQL 协议,可使用 MySQL 客户端并适配各类主流 BI 工具,同时擎具备水平扩展、高可用、高可靠、易运维等特性。

未来镜舟科技计划在湖仓领域不断探索,进一步加强离线数据和批量数据处理能力,打造更加一体化的湖仓产品平台。

孟庆欢最后总结,随着技术的不断发展,湖仓架构将进一步演化,引领下一场数据革命。在技术的赋能下,湖仓将不断释放更为丰富、有价值的数据,为企业业务提供更强大的数据支持,推动业务创新和发展。湖仓架构的未来,将是数据与技术相互融合、协同发展的新时代。

文:十四 / 数据猿
责编:凝视深空 / 数据猿

978143b821e6b8b73e9e0e9491ff359e.jpeg

44db119d9a412fba0a5b4b8723f9fb36.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/369269.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32F407 CAN 静默回环模式 配置

CAN 静默回环模式 【 Silent_LoopBack】 自发自收,这种方式作“热自检”使用,即自我检查,不干扰总线,也不受总线干扰. 发送:发出的数据,只会传输到自己的输入端,不会影响总线.接收&#x…

隐写术:隐藏信息的秘密艺术

一、引言 隐写术,这个充满神秘色彩的词汇,似乎让我们回到了间谍和秘密特工的时代。但实际上,隐写术在现代社会仍然有着广泛的应用,例如在军事、情报、商业等领域。本文将带你走进隐写术的世界,探索它的原理、应用和防…

Vue3+TS+Vite+Pinia学习总结

VUE3介绍 vue2和vue3之间的区别 因为需要遍历data对象上所有属性,所以如果data对象属性结构嵌套很深,就会存在性能问题。因为需要遍历属性,所有需要提前知道对象上有哪些属性,才能将其转化为getter和setter,所以vue2中无法将data新…

物流平台架构设计与实践

随着电商行业的迅猛发展,物流行业也得到了极大的发展。从最初的传统物流到现在的智慧物流,物流技术和模式也在不断的更新与升级。物流平台作为连接电商和物流的重要媒介,其架构设计和实践显得尤为重要。 一、物流平台架构设计 1. 前端架构设…

Selenium处理Alert弹窗

页面弹窗有 3 种类型: alert(警告信息) confirm(确认信息) prompt(提示输入) 对于页面出现的 alert 弹窗,Selenium 提供如下方法: 序号 方法/属性 描述 1 ac…

leetcode正则表达式匹配问题(困难)

1.题目描述 2.解题思路,这道题自己没做出来,看了官方的题解,感觉对自己来说确实是比较难想的。使用了动态规划的解决方案,这种方案看题解都不一定能看明白,不过有个评论画图讲解的非常明白。其实仔细看题解的话&#…

关于网络面试题汇总

什么是TCP/IP五层模型?它们的作用是啥?基于TCP/IP实现的应用(层协议)有哪些? TCP/IP五层模型,从上向下分别是: 应用层:应用程序本身,应用层的作用是负责应用程序之间的…

Python实现PDF到HTML的转换

PDF文件是共享和分发文档的常用选择,但提取和再利用PDF文件中的内容可能会非常麻烦。而利用Python将PDF文件转换为HTML是解决此问题的理想方案之一,这样做可以增强文档可访问性,使文档可搜索,同时增强文档在不同场景中的实用性。此…

HTML+CSS:WIFI开关按钮

效果演示 实现了一个按钮的切换效果,当用户点击按钮时,按钮会从一个颜色渐变到另一个颜色,同时按钮的边框和阴影效果也会发生变化。同时,按钮的图标也会从一个颜色渐变到另一个颜色。这个效果可以用来提醒用户进行操作&#xff0c…

一步步成为React全栈大师:从环境搭建到应用部署

文章目录 第一步:环境搭建第二步:了解React基础第三步:组件与路由第四步:状态管理第五步:接口与数据交互第六步:样式与布局第七步:测试第八步:构建与部署《深入浅出React开发指南》内…

MagicVideo-V2:多阶段高保真视频生成框架

本项工作介绍了MagicVideo-V2,将文本到图像模型、视频运动生成器、参考图像embedding模块和帧内插模块集成到端到端的视频生成流程中。由于这些架构设计的好处,MagicVideo-V2能够生成具有极高保真度和流畅度的美观高分辨率视频。通过大规模用户评估&…

未来电话呼叫技术的社会影响与发展趋势----云微呼

未来电话呼叫技术将以更为智能化、便捷化和个性化为主要发展趋势,其所带来的社会影响也将是多层面的。以下将探讨未来电话呼叫技术可能的发展趋势以及对社会的影响: 智能化助力生活便捷: 未来电话呼叫技术将更加智能化,通过人工智…

Spring事件之注解@EventListener讲解

文章目录 1 注解EventListener1.1 示例Demo1.1.1 简单例子1.1.2 解耦1.1.3 Spring事件 1.2 深入EventListener1.2.1 debug调试1.2.2 问题一: Spring是怎么知道要去触发这个方法1.2.3 问题二:ApplicationListenerMethodAdapter1.2.4 问题三:Si…

【Python】【完整代码】解析Excel 文件中的内容并检查是否包含某字符串,并返回判断结果

示例: 开发需求:解析Excel 文件中的内容并检查是否包含 "Fail" 字符,若没有则返回True,若有则返回False 实现代码: #!/usr/bin/env python3 # -*- encoding: utf-8 -*-File : check_excel_for_fail.py Ti…

华为机考入门python3--(7)牛客7-取近似值

分类:数字 知识点: str转float float(str) 向上取整 math.ceil(float_num) 向下取整 math.floor(float_num) 题目来自【牛客】 import math def round_to_int(float_num): # 如果小数点后的数值大于等于0.5,则向上取整&#xf…

【HarmonyOS】鸿蒙开发之ArkTs初步认识——第2.1章

ArkTs简介 ArkTS是HarmonyOS优选的主力应用开发语言。ArkTS围绕应用开发在TypeScript(简称TS)生态基础上做了进一步扩展,继承了TS的所有特性,是TS的超集。 以下图可以展示Js,TS,ArkTs的关系 ArkTs基础语…

开发知识点-拍黄片的好基友的依赖管理工具-composer

composer 介绍主要特性使用Composer的优势 基本使用文档 介绍 Composer 是 PHP 的一个依赖管理工具,它允许项目创建者和开发者声明项目所依赖的库,并自动安装这些依赖项。 它在PHP社区中被广泛使用,几乎成为了现代PHP开发的标准配置。 主要…

面试150 颠倒二进制位 位运算分治 逻辑右移

Problem: 190. 颠倒二进制位 文章目录 思路复杂度位运算分治法 思路 👨‍🏫 参考题解 >>>:逻辑右移(符号位一起移动,高位补零) 复杂度 时间复杂度: O ( log ⁡ n ) O(\log{n}) O(logn) 空间…

Javaweb之SpringBootWeb案例之 @ConfigurationProperties的详细解析

4.3 ConfigurationProperties 讲解完了yml配置文件之后,最后再来介绍一个注解ConfigurationProperties。在介绍注解之前,我们先来看一个场景,分析下代码当中可能存在的问题: 我们在application.properties或者application.yml中配…

外贸流程的基本流程图怎么画?这样画简单快速

外贸流程的基本流程图怎么画?随着全球化的不断深入,外贸行业逐渐成为了国家经济发展的重要支柱。对于许多企业和个人来说,掌握外贸基本流程是非常必要的。但是,很多人在初次接触外贸时,对于流程的各个环节并不熟悉&…
最新文章