怎么建设数据中台?详解数据中台架构内的三大平台

一、什么是数据中台?

要知道“中台”是什么,就得先了解“前台”和“后台”。

前台,就是我们日常使用的过程中可以直接看到和感知到的东西,比如你打开某东app买了个3080显卡,在这个过程中你看到的页面以及搜索、点击详情之类的交互操作都属于前台。

后台,就是支撑这些展示的算法、数据、流程等,这些是看不见摸不着的。现在不都讲究精准推送嘛,你今天某音看了美女视频,接下来天天都给你推,这背后的算法逻辑就属于后台。

如果按照传统“前台—后台”架构,企业业务的增多会导致n多前台和n多后台产生。就拿某节来说,它不止有某音,还有某条、某车帝、某瓜视频之类的,它们有很大一部分模块或功能是重复的,比如搜索、创作后台、查重机制、推送方式等。为了不重复造轮子,提高开发效率,就需要一个统一的平台来承接共性的功能模块,作为n多前台和n多后台的桥梁,这个时候“中台”就出现了。

那到底什么是数据中台呢?

一句话概括:数据中台是一套“持续让企业把数据用起来”的机制。

001393593f121d847f13db70b53cd163.jpeg

数据中台主要是解决2个问题,一个是搞定企业后台开发跟不上前台业务需求变化速度,第二个是业务系统解决数据孤岛问题。

我们可以把数据中台看作是一个智能家居中枢控制中心,家里的各种智能设备如灯泡、音响、门锁等是前台,控制它们系统是后台,而数据则相当于向各个智能设备发送的指令和信息。

数据连接:智能家居中枢控制中心可以连接到各个智能设备,通过与这些设备建立通信,获取设备发送的指令和数据。

数据处理整合:数据中台对收集到的数据进行处理、整合和转换,确保数据的一致性和可用性。例如,将不同设备发送的指令进行标准化和统一,以便更好地进行集中控制。

控制和调度:基于数据中台收集到的数据,智能家居中枢控制中心可以执行控制和调度操作。它可以根据你的指令和设定,控制各个智能设备的状态,例如调整灯光亮度、播放音乐、解锁门锁等。

总结来说,数据中台的作用有:

健全各部门协作机制:通过系统的解决方案,实现企业数据相关人员如业务人员、研发人员、产品团队等的高效协作。

帮助企业建立数据基础:通过建立数据建设规范和指标规划,对收集到的数据进行处理、整合和转换,确保数据的一致性和可用性。

节约企业数据应用成本:通过数据中台,拉通整合了不同业务系统数据,不仅减少了重复开发成本,还缩短了数据加工到使用的时间。

示例中提到的数据模板分享给大家——
https://s.fanruan.com/8j9is
零基础快速上手,还能根据需求进行个性化修改哦


二、怎么建设数据中台?

数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业务场景,打造各类数据服务(含数据应用平台)从而实现对业务的赋能加速。

但以上流程的实现,需要有对应的系统与产品作为支撑,那么怎么建设数据中台,基础的数据中台到底应该由哪些系统或者产品组成?

对于怎么建设数据中台,这里我们可以先来看一下几个企业的数据中台架构。

ecdc5a42402c0de597eb1e3671658764.jpegb3043cbe8a4fff6a1818b5586ab02094.jpeg

可以看出,虽然每个企业由于自身业务的不同,衍生出来的数据中台体系都有所不同,但大的架构方面是基本统一的,都需要通过一个“数据采集接入”-“加工存储”-“统一管理”-“服务应用”的阶段。

怎么建设数据中台?数据中台的功能架构应该由大数据平台、数据资产管理平台与数据服务平台三大部分组成,其中在数据服务平台中自助分析平台与标签管理系统的应用场景最为广泛。

2c7f0cbb0c60cea02e7a5186596fe66b.jpeg

1、大数据平台

大数据平台是数据中台的基座,我们也可以把大数据平台称为大数据开发平台,它需要具备与大数据相关的开发能力,提供数据存储、数据清洗/计算、数据查询展示及权限管理等功能。

市面上各个公司的大数据平台结构其实大同小异,各类架构都包含了数据采集组件、数据存储组件、数据计算引擎、数据权限与安全组件,以及集群管理与监控组件等。

除了少数像阿里这样倾力打造自研“飞天”系统的企业,其他企业在底层组件选用上,还是以 Hadoop 生态构建的技术体系为主,依托各类开源组件进行优化改进与二次开发。例如,数据存储组件可以选择HBase、Hive等组件,数据计算引擎可以选择Spark、Flink等分布式计算引擎。

既然大家选用的组件相同或者相似,那为什么最终各企业大数据平台的服务能力还是存在差距呢?这有些类似于购买零件组装台式电脑,零件不需要选最贵的,而是要根据实际需求来选择最适合的。

好用的大数据平台需要拥有为用户解决问题的能力。因此,数据中台的大数据平台建设不是比拼引用了多少新技术、覆盖了多少技术组件,而是要看它能否解决数据中台建设中所面临的复杂数据现状,能否成为数据中台打破数据壁垒的技术保障,能否提供简洁有效的数据处理工具,如提供自助配置式的数据采集与数据清洗工具等,以及能否提供更多的附加价值。

数据中台的大数据平台建设,可以避免各事业部技术团队各自搭建大数据集群所带来的资源浪费。统一的、成熟的大数据平台对企业来说,不能一蹴而就,需要循序渐进、分步实施,在持续迭代中构建企业的大数据平台生态。

2、数据资产管理平台

顾名思义,数据资产管理主要解决数据资源的管理工作。通常情况下,数据资产遍布在各个大数据组件中,有 hive 的表, 有 hbase 的表, 有 druid 的 datasource, 有 kafka 中的流, 各个组件的管控系统很难互相打通, 所以需要一个统一的数据资产管理服务, 来统筹大数据资源的管理。

随着大数据平台的建设,构建数据中台的数据体系成为可能,通过对各业务线数据的归类整合,我们可以构建出各个数据主题域,完成数据的规范存储,形成数据资产,进而完成数据资产管理。

在数据中台体系中,数据资产管理平台主要由元数据管理与数据模型管理组成,下面让我们分别了解一下。

1)元数据管理

讲述元数据管理,我们需要先弄清楚什么是元数据。

元数据(MetaData)通常被定义为:关于数据的数据(Metadata),或者描述数据的数据(data about data),对数据及信息资源的描述性信息。元数据是所有数据中最重要的数据。

这里举一个最通俗的例子。当我们去图书馆借书时,直接面对数以万计的图书,自然难以寻找,但是你通过在图书馆查询系统中输入这本的书名、作者、出版社等信息,获取就能准确的图书位置。那么这些书名、作者等信息,就可以理解为元数据,而图书的存放位置、借阅历史记录等,则是我们系统中的普通数据。

在数据库中,每一张数据表的表名、创建信息(创建人、创建时间、所属部门)、修改信息、表字段(字段名、字段类型、字段长度等),以及该表与其他表之间的关系等信息都属于这张数据表的元数据。

其实,元数据有多种分类方式,笔者更倾向于按照元数据的用途来区分,总共分为三类:业务元数据、技术元数据和管理元数据。

业务元数据:描述数据的业务含义、业务规则等,包括业务规则、数据字典以及安全标准等多项内容。通过明确业务元数据,让人们产生统一的数据认知,消除数据歧义,让不懂数据库的业务方读懂数据表的内容。

技术元数据:描述数据源信息、数据流转信息及数据结构化信息,主要服务于数据开发人员,让开发人员明晰数据表结构与所依赖的上下游任务,主要包括库表字段(存储位置、数据库表、字段长度和类型)、数据模型、ETL脚本(调度信息)与SQL脚本等。

管理元数据:描述数据的管理归属信息,包括业务归属、系统归属、运维归属以及数据权限归属等信息,是数据安全管理的基础。

becbca4145e99d5dad665968131591eb.jpeg

所以有人说,元数据记录了数据从无到有的全过程,就像一本有关数据的“字典”,让我们可以查询到每一个字段的含义与出处,同时它又像是一张“地图”,让我们可以追溯数据产生的路径。

通过对数据体系的建设,数据中台的元数据汇聚了企业各业务线与各系统的数据信息,让数据中台具备了提供全域数据资产视图的能力,实现了统一数据资产查询与获取入口的目标。

元数据管理包括对元数据增删与编辑管理、版本管理、元数据统计分析与元模型管理。通过上述功能模块,有计划地进行数据体系的落地实施,实现数据中台元数据的结构化与模型化,这样既可以避免元数据出现杂乱与冗余的现象,也便于用户查询与定位数据。

2)数据模型管理

介绍元数据时,我们提到技术元数据中包括数据模型,这里的数据模型就是指使用元数据进行数据建模的工作产物。

根据底层数据的使用情况,如数据表的关联信息、SQL脚本信息(数据聚合与查询信息等),来获取元数据,可以更好地完成对业务的抽象,提高建模效率。

数据模型是数据整合的有效手段,它完成了各数据源之间的映射关系设计,为数据主题建设提供了“实施图纸”。

同时,在数据建模过程中,通过明确数据标准,可以确保数据的一致性,还可以消化冗余数据。

至于数据模型管理,其是指在数据建模过程中,通过既定的数据模型管理制度,实现对数据模型增、删、改、查的管理,同时遵守数据标准化与数据统一化的要求,确保数据质量。

0153adbb196de23322a69569b6925dd9.jpeg

3、数据服务平台

举例:自助分析平台

自助分析平台,也就是商业智能平台(BI平台)。BI平台目前已经是很多企业的标配,目前BI商用市场的行业竞争日趋激烈,进场者可以分为如下3类:

►国内BI厂商,如Fine BI

►国外BI厂商,如Tableau

►互联网大厂内部孵化

BI 平台是数据中台服务能力的主要输出方,要想让数据中台发挥出应有价值,那么BI平台的建设必不可少,所以需要将BI平台建设划分在数据中台体系下。综合来看,BI平台应该具备如下能力。

(1)数据接入

除了数据中台的自有数据源,BI平台还需要支持外部数据源的接入。其接入方式,主要有如下3种:

►文件型:支持Excel等文件数据的上传。

►数据连接型:支持Mysql、Oracle等数据库,以及Hadoop、Spark等大数据平台(数据中台的大数据平台也在此列)。

►API读取:支持通过API获取第三方系统数据。

08a079c8f5a19bda0f0f1edab0a65312.jpeg帆软BI平台支持的数据源

(2)数据处理

BI 平台需要能为用户提供数据建模工具,帮助用户创建目标数据(数据集),其提供的功能包括拖拽表字段、自动识别维度/指标、自定义视图语句、预览数据、设置虚拟字段、函数计算、设置参数等基本操作,以及多源异构的 JOIN/UNION等数据处理功能。

cc54b0a4dd4e8edc4660bf3a4fbc190e.jpegFineBI自助数据集数据处理界面

(3)数据分析与可视化

在数据处理的基础上,BI 平台还需要为用户提供丰富的图表制作和联机分析处理(OLAP)操作,让用户在前端页面完成数据分析与数据可视化等工作。

其操作流程如下:用户选择处理后的数据集,对维度与指标进行筛选过滤,然后通过上卷下钻、图表联动、报表跳转等操作,完成业务需求的分析,同时BI平台会为用户提供可视化图形组件,使其最终完成可视化内容的设计。

94b090de0cb44906b584763474ab3dfa.jpeg

(4)内容分发与基础服务

BI平台需要具备分发可视化内容,并进行查看权限与数据权限控制的能力。主要的分发方式包括BI平台、移动BI(App)、数据大屏、邮件、链接访问,以及第三方嵌入等方式。

同时BI平台还需要具备基础的运营管理、角色管理、帮助中心与消息推送等功能。

只有满足以上功能、具备了多维分析、数据可视化与数据大屏等服务能力的BI平台,才可以最大限度的发挥在数据中台体系中的价值,有效地帮助分析师与运营团队提升工作效率。

除了商业智能BI外,各企业还需根据自身所处行业的特性去进行数据应用价值的最大化挖掘。

三、结语

在数字化与信息化高速发展的时代,FineBI——市场占有率第一的BI数据分析软件,旨在帮助企业的业务人员充分了解和利用他们的数据,加速企业数字化转型,提升市场竞争力。得益于FineBI强劲的大数据引擎,用户只需简单拖拽便能制作出丰富多样的数据可视化信息,自由地对数据进行分析和探索,让数据释放出更多未知潜能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/489007.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

考研数学|武忠祥高数全年学习包分享

u1s1,武忠祥老师的课程真的不错,宝藏级老师 其实我觉得没必要对比每一个考研数学老师,汤家凤还有张宇以及武忠祥都是非常受欢迎的老师,也都很有实力,只不过讲课的风格有所区别。 比如汤家凤老师就像是高中那种不苟言…

洁净环境监测相关法规指南汇总

一 洁净级别确认 1. 用于生产无菌药品的洁净室和洁净空气设备如单向流系统(UDAF)、限制进入屏障系统(RABS)和隔离器,应根据所需环境特性进行确认。生产操作需要在适当洁净度级别的环境中进行,以降低粒子或…

M1 mac安装 Parallels Desktop 18 激活

M1 mac安装 Parallels Desktop 18 激活 下载安装Parallels Desktop 18.1.1 (53328) 激活1. 拷贝prl_disp_service2. 在终端打开Crack所在位置3. 输入命令,激活成功 下载 安装包和激活文件下载地址 链接: https://pan.baidu.com/s/1EjT7xeEDcntIIoOvvhBDfg?pwd9pue …

智能无人集群系统跨域协同技术研究现状与展望

源自:中国工程院院刊 作者:江碧涛,温广辉,周佳玲,郑德智 “人工智能技术与咨询” 发布 编者按 随着智能化技术和无人系统技术的快速发展,智能无人集群系统跨域协同的概念应运而生并得到了广泛关注与深…

element-ui radio-group 组件源码分享

接着上篇的 radio 组件源码分享,继续探索 radio-group 源码部分的实现过程,主要从以下四个方面来讲解: 1、el-radio-group 页面结构 2、el-radio-group 组件属性 3、el-radio-group 组件方法 4、核心代码部分 一、页面结构,如…

成都伊理威:抖音开网店如何找好货源

在数字浪潮的推动下,抖音已成为创业者开展电子商务的热土。开设一家抖音网店,如何找寻优质的货源成为成功的关键一环。选择货源,犹如为网店插上腾飞的翅膀,既要注重品质,也要考虑成本,确保产品能够在激烈的…

jspssm_maven项目——KTV点歌系统

目录 背景 技术简介 系统简介 界面预览 背景 随着互联网的广泛渗透和进步,基于网络技术的KTV点歌系统迅速壮大,其发展始终围绕用户的实际需求展开。通过深入洞察用户的需求,开发出高度定制的管理平台,利用网络的便捷性对系统…

【晴问算法】入门篇—字符串处理—首字母大写

题目描述 给定一堆用空格隔开的英文单词,将每个单词的首字母改为大写后输出。输入描述 一堆英文单词,每个单词不超过10个字符,且仅由小写字母组成;每两个单词之间用一个空格隔开,整个字符串的长度不超过1000。输出描述 输出每个单…

基于React的低代码平台开发实践

💂 个人网站:【 摸鱼游戏】【神级代码资源网站】【工具大全】🤟 一站式轻松构建小程序、Web网站、移动应用:👉在线地址🤟 基于Web端打造的:👉轻量化工具创作平台💅 想寻找共同学习交…

浏览器输入框自动填充默认样式移除

文章目录 浏览器输入框自动填充默认样式移除问题现象以及探索过程尝试代码有效关键代码(解决方案) 浏览器输入框自动填充默认样式移除 问题现象以及探索过程 (在 uniapp 语法下)本文的写法在 Edge 119.0.2151.58 (正式版本) (64 …

爱校对:网站内容的温暖守护者

在这个快速变化的信息时代,网站如同一个生动的生态系统,每时每刻都在更新和进化。但是,随之而来的是一个挑战:如何确保这个生态系统中的每一条信息都是准确、合法、并且对用户友好呢?这就是我们,爱校对网站…

​企业是否需要向个人信息主体提供《标准合同》副本文件?​

企业是否需要向个人信息主体提供《标准合同》副本文件? 目前未见有规定强制要求企业需要主动向个人信息主体提供《标准合同》的副本文件,但个人信息主体具有要求个人信息处理者提供其所签订的《标准合同》副本的权利,企业必须配合。在提供副…

Jetson AGX ORIN 配置 FGVC-PIM 神经网络(包含 arm64 下面 torch 和 torchvision 配置内容)

Jetson AGX ORIN 配置 FGVC-PIM 神经网络 文章目录 Jetson AGX ORIN 配置 FGVC-PIM 神经网络配置 ORIN 环境创建 FGVC-PIM 虚拟环境安装 PyTorch安装 torchvision安装其他依赖包 配置 ORIN 环境 首先先配置 ORIN 的环境,可以参考这个链接: Jetson AGX …

【考研数学】张宇全程学习包

可以全程张宇老师的高等数学,张宇老师的拿手绝活是高数 但是其他科目,还有更好的选择,比如线性代数,汤家凤老师还有李永乐老师讲的都不错,概率论,余丙森老师还有方浩老师讲的很好。下面我就讲清楚&#xf…

1978-2022年全国及31省市农业机械总动力(万千瓦)(无缺失)

1978-2022年全国及31省市农业机械总动力(万千瓦)(无缺失) 1、时间:1978-2022年 2、范围:全国及31省 3、来源:整理自各省年鉴 中国农业统计年鉴、国家统计局 4、指标:农业机械总动…

云电脑火爆出圈,如何选择和使用?--腾讯云、ToDesk云电脑、青椒云使用评测和攻略

前言: Hello大家好,我是Dream。在当下,科技的飞速发展已经深入影响着我们的日常生活,特别是随着物联网的兴起和5G网络的普及,云计算作为一个重要的技术概念也逐渐走进了我们的视野。云计算早已不再是一个陌生的名词&am…

基于nodejs+vue电子产品销售系统设计与实现python-flask-django-php

该系统采用了nodejs技术、express框架,连接MySQL数据库,具有较高的信息传输速率与较强的数据处理能力。包含管理员和用户两个层级的用户角色,系统管理员可以对个人中心、用户管理、产品类别管理、电子产品管理、留言板管理、系统管理、订单管…

MySQL数据库备份策略与实践详解

目录 引言 一、MySQL数据库备份的重要性 (一)数据丢失的原因 (二)数据丢失的后果 二、MySQL备份类型 (一)根据数据库状态 (二)根据数据的完整性 (三)…

【Linux】Linux查看物理CPU个数、核数、逻辑CPU个数,以及内存情况

总核数 物理CPU个数 X 每颗物理CPU的核数 总逻辑CPU数 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 查看物理CPU个数 cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l显示这台机器有2块CPU 查看每个物理CPU中core的个数(即核数) cat /proc/cpuinfo|…

【SpringBoot】实现一个简单的图片上传

前端上传表单 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body> <form enctype"multipart/form-data" method"post" action&q…