数据治理之主数据管理

文章目录

  • 一、主数据管理概述
    • 什么是主数据
    • 什么是主数据管理
    • 主数据管理的意义
      • 打破孤岛, 提升数据质量
      • 统一认知, 提升业务效率
      • 集中管控, 提升管理效能
      • 数据驱动, 提升决策水平
  • 二、主数据管理方法
    • 摸家底
    • 建体系
    • 接数据
      • 数据接入
      • 数据清洗
        • 主数据清洗规范
        • 主数据清洗操作
      • 数据分发
    • 抓运营
  • 三、主数据管理技术
    • 主数据分类
      • 线分类法
      • 面分类法
      • 混合分类法
    • 主数据编码
      • 主数据编码方法
      • 主数据编码颗粒度
    • 主数据集成
      • 与源系统集成
      • 与消费系统集成
  • 四、主数据管理最佳实践
    • 大目标,小步骤
    • 业务驱动,技术引领
    • 重视主数据编码设计
    • 重视数据清洗
  • 五、主数据管理工具
    • 系统架构
    • 主数据建模
    • 主数据管理
    • 主数据质量
    • 主数据安全
    • 主数据集成

一、主数据管理概述

什么是主数据

“主数据(Master Data) 是具有共享性的基础数据, 可以在企业内跨越各个业务部门被重复使用, 比如, 可以是与客户、 供应商、 账户及组织单位相关的数据, 因此通常长期存在且应用于多个系统。 ”
主数据具有高价值、高共享、相对稳定的特性。

image.png

什么是主数据管理

主数据管理是集方法、 标准、 流程、 制度、 技术和工具为一体的解决方案。

  • 方法是指主数据梳理、 识别、 定义、 管理、 清洗、 集成和共享所需要的一系列咨询和管理方法。
  • 标准涵盖了主数据的分类、 编码、 建模、 清洗、 集成、 管理、 运营等的相关标准和规范。
  • 流程是指规范主数据生产、 管理和使用的相关流程, 例如主数据新增流程、 主数据变更流程、 主数据冻结流程等。
  • 制度确保主数据的一致性、 正确性、 完整性, 规范主数据的管理、 维护、运营的相关管理办法、 规定和考核手段。
  • 技术和工具是实现主数据管理和集成所涉及的技术平台与工具, 如MDM系统、 ESB、 ETL等。

主数据管理的意义

打破孤岛, 提升数据质量

建立统一的主数据标准, 规范数据的输入和输出, 打通各部门、 各系统之间的信息孤岛, 实现企业核心数据的共享, 提升数据质量。

统一认知, 提升业务效率

在企业的业务执行中, 主数据的数据重复、 数据不完整、 数据不正确等问题是造成业务效率低下、 沟通协作困难的重要因素。
例如, “一物多码”问题常常让企业的采购部门、 库房管理、 财务部门头痛不已。 实施主数据计划, 对主数据进行标准化定义、 规范化管理, 可以建立起企业对主数据标准的共同认知, 提升业务效率, 降低沟通成本。

集中管控, 提升管理效能

当企业的核心数据分散在各单位、 各部门的应用系统中时, 缺乏统一的数据标准约束, 缺乏管理流程和制度的保障对于企业的集约化管理是非常不利的, 因为无法实现跨单位、 跨部门的信息共享。 企业希望加强集团管控, 实现人、 财、 物的集约化管理, 如统一财务共享中心, 共享人力资源, 集中采购等, 而部署和实施统一集中的主数据管理是其重要前提。

数据驱动, 提升决策水平

数字化时代, 企业的管理决策正在从经验驱动向数据驱动转型。 主数据作为企业业务运营和管理的基础, 如果存在问题将直接影响企业的决策, 甚至误导决策。 实施有效的主数据计划, 统一主数据标准, 提高数据质量, 打通部门、 系统壁垒, 实现信息集成与共享, 是企业实现数据驱动、 智能决策的重要基础。

二、主数据管理方法

image.png

摸家底

摸清企业现状,梳理企业现有主数据和数据管理程度。

建体系

建立主数据组织体系、数据标准体系、制度与流程体系、主数据技术体系、主数据安全体系。

接数据

主数据管理实操阶段。
包含数据接入、数据清洗和数据应用三个阶段。
image.png

数据接入

主数据接入是将主数据从数据源系统接入并汇集到主数据平台的过程。 该过程用到的技术有很多, 常见的有ETL抽取、 文件传输、 消息推送、 接口推送等。

数据清洗

主数据清洗规范

主数据清洗工作包含期初数据的收集整理和遗留系统历史数据的处理, 需要提前制定主数据清洗方案, 以指导主数据的清洗工作。
主数据清洗方案主要涵盖以下内容:

  • 主数据清洗的原则;
  • 主数据清洗范围和目标;
  • 主数据清洗的计划;
  • 主数据清洗的组织和角色分工;
  • 主数据清洗的流程、 要求和注意事项;
  • 主数据清洗的模板, 定义每个主数据数据元素的质量规则和填报规范;
  • 遗留系统历史数据处理策略。
主数据清洗操作

主数据清洗操作包括主数据归类、 主数据去重、 缺失值处理、 规范性描述等。

  • 主数据归类: 根据定义好的主数据分类体系将清洗范围内的数据逐一归类到相应的分类中。
  • 主数据去重: 利用工具+人工识别的方式, 找到重复或疑似重复的数据, 并进行剔除或合并。 执行这一过程时, 强烈建议先去除关键属性中的空格,因为多了空格就会导致工具误判, 比如认为“张 三”与“张三”不是一个人。
  • 缺失值处理: 由于主数据的唯一性属性是不允许为空的, 因此需要通过工具找到有唯一性属性为空的数据并进行填补。 对于其他附加的且可以为空的属性不作特殊要求。
  • 规范性描述: 主数据的属性填写得不规范是造成主数据质量低下的主要原因, 不规范问题包括字母大小写、 全半角、 特殊字符书写、 空格等问题。例如: 表示直径的符号Φ不可以写成φ、 ∮ 、 Ψ或ф。

数据分发

主数据分发即将标准化的主数据分发给下游业务系统使用的过程。 主数据分发过程的各系统厂商都应按照《主数据集成规范》 约定的集成方式、 接口标准、 注意事项进行对接。
在企业实施主数据分发的过程中, 需要根据不同场景选择不同的集成方式。

  • 定期数据共享: 一般采用ETL或接口方式定期将主数据抽取到业务系统指定的数据表中。
  • 实时数据共享: 一般采用消息订阅的方式, 通过数据接口将主数据推送给业务系统。

主数据分发对消费系统的要求如下。

  • 对于新建系统, 要求新建的系统不能创建主数据, 必须接入主数据系统, 使用与主数据系统同步的标准数据。
  • **对于历史遗留系统, 要求能改造的必须完成改造, 以满足主数据统一管理的要求; 对于不能改造的系统, 必须手动建立与标准主数据的映射关系, 以保证数据集成与分析过程中主数据的唯一性和一致性。 **

抓运营

对主数据的日常管理、质量管理等进行管理。

三、主数据管理技术

主数据分类

数据分类是指出于某种目的, 在指定范围内, 以一定的分类原则和方法为指导, 按照信息的内容、 性质及管理者的使用要求等, 将信息按一定的结构体系分门别类地组织起来, 并建立起一定的分类体系和排列顺序。
主数据的基本分类方法有三种, 即线分类法、 面分类法和混合分类法, 其中线分类法又称层级分类法, 面分类法又称组配分类法。

线分类法

分类法将要分类的对象按其所选择的若干个属性或特征, 按最稳定本质属性逐次分成若干层类目, 并排列成一个层次逐级展开的分类体系。
image.png

  • 优点: 分类层次性好, 不重复, 不交叉, 能较好地反映类目之间的逻辑关系, 它既符合手工处理信息的传统习惯, 又便于计算机处理。
  • 缺点: 揭示事物特性的能力差, 具有一定的局限性, 不便于根据需要随时改变, 也不适合多维度的信息检索。

面分类法

面分类法是指将所选定分类对象的若干标志视为若干个面, 将这些面划分为彼此独立的若干个类目, 排列成一个由若干个面构成的平行分类体系。
image.png

  • 优点: 具有一定的伸缩性, 易于添加和修改类目, 一个面中的类目改变,不会影响到其他的面, 而且可以对面进行增删。 适应性强, 可根据任意面的组合方式进行分类的检索, 有利于计算机的信息处理。
  • 缺点: 不能充分利用编码空间, 编码的组配方式很多, 但实际应用到的组配类目不多。

混合分类法

混合分类法是在已有的分类中, 同时使用线分类和面分类两种方法进行分类, 以满足业务的需要。 混合分类一般以一种分类方法为主, 将另一种作为补充。 例如: 在上面的示例中, 我们可以用线分类法作为企业电子元器件的主分类, 将面分类中的“安装工艺”和“可靠性”作为电子元器件的辅助分类属性进行管理, 以满足信息查询和业务使用的需要。

主数据编码

主数据编码方法

主数据编码是为了方便主数据的标识、 存储、 检索和使用, 在进行主数据处理时赋予具有一定规律、 易于计算机和人识别处理的符号。
编码是个技术活。
《GB/T 7027—2002信息分类和编码的基本原则与方法》 给出了两种编码方法, 分别是有含义的代码和无含义的代码。
image.png
在实际的主数据编码中, 通常会将两者结合起来。 基于大、 中、 小类的层次码进行编码很有必要, 这样便于归类和检索, 但一般不建议分得太细, 例如把物料、 规格、 型号等都考虑进去就没有太大的意义。
基于分类的主数据编码规则如下:
image.png**

主数据编码颗粒度

主数据编码颗粒度主要是指主数据管理的属性数量及管理属性值的大小程度, 它决定了主数据编码量的多少。
image.png

  • 核心特征属性: 反映主数据核心或本质特征的属性, 是用来识别事物的特有属性, 例如电子元器件的名称、 型号和规格。
  • 普通特征属性: 用于对事物进行更细颗粒度的识别和管理, 例如电子元器件的封装方式、 安装工艺、 可靠性等。
  • 附加属性: 根据管理需要为事物附加的属性, 例如电子元器件的价格、 是否批次管理、 采购周期等。

一般来说, 主数据编码必须包含核心特征属性, 而普通特征属性和附加特征属性可根据管理的目的进行取舍。 选择的普通特征属性越多, 则主数据编码的颗粒度就越细, 编码量就越大。 而选择几个、 选择哪些特征属性与主数据编码绑定, 这涉及企业的销售管理、 成本管理、 生产管理等业务, 应根据企业的业务需求和目的而定。

主数据集成

主数据集成主要包括两个方面:
第一, 主数据平台与权威数据源系统的集成, 实现主数据从权威数据源的采集并装载到主数据平台中;
第二, 主数据平台与主数据消费系统的集成, 将标准的主数据代码按照约定的集成方式分发到主数据的消费系统中。
image.png

与源系统集成

可以通过API采集、库表拉取的方式。

与消费系统集成

可以通过API发布、库表推送的方式。

四、主数据管理最佳实践

大目标,小步骤

定好目标,对目标进行拆分,一个一个的完成。
总结:总体规划、分步实施

业务驱动,技术引领

主数据管理绝对不是为了做主数据而做主数据, 而是为了服务于企业的业务目标。 主数据项目建设不是一个部门的任务, 也不只是IT部门的事情, 需要技术和业务协同, 为实现企业的业务目标而服务。 主数据项目建设需要业务驱动和技术引领的双引擎。

重视主数据编码设计

主数据编码是保证数据的唯一性、 一致性的关键属性。 编码的目的在于将数据编码化繁为简, 便于主数据的管理, 如果编码过于繁杂, 则违反了编码的目的。 通常情况下, 会使用系统自动生成的流水码来作为主数据的编码, 用于机器识别, 重点解决的是异构系统之间的数据映射问题。

重视数据清洗

数据清洗, 从字面上理解就是把脏数据洗掉, 这里“脏数据”是指重复、 不一致、 不完整、 不正确的数据。 数据清洗是发现并纠正数据集中数据质量问题的过程, 包括检查数据唯一性、 一致性, 处理重复数据和缺失值等。

五、主数据管理工具

主数据管理系统

系统架构

主数据管理工具用来整合来自不同来源的数据, 使企业能够为重要数据创建单一数据源, 统一数据视图, 从而提供标准、 准确、 一致的核心数据, 帮助企业做出明智的决策。 在应用层面, 主数据管理工具自下而上可分为业务系统层、 主数据集成层、 主数据管理层和主数据应用层四层架构,

image.png

主数据建模

主数据建模功能是主数据管理的基础, 主数据的申请、 审核、 质量、 安全、 集成共享等功能都是围绕主数据模型展开的。
主数据建模包括主数据分类、 主数据编码、 主数据属性模型、 主数据界面模型及主数据审批模型。

  • 主数据分类: 按照一定的维度和特征对某主数据进行划分, 以方便主数据的管理和使用, 例如客户分类、 供应商分类、 产品分类等。
  • 主数据编码: 主数据的唯一识别属性。 主数据管理工具提供多种编码方式, 可以灵活设置码段、 码位、 步长, 以支持不同主数据编码的业务需求。 常见的编码方式有特征值编码、 固定值编码、 日期码、 流水码、 组合码、 层级码、 随机码等。
  • 主数据属性模型: 用于对主数据所有属性进行定义, 包括中文名称、 英文名称、 字段类型、 字段长度、 唯一性约束、 校验规则等。
  • 主数据界面模型: 也叫主数据管理模板, 提供了主数据管理视图配置功能, 在主数据模型的基础之上, 为不同分类主数据分配不同的属性。
  • 主数据审核模型: 基于主数据管理工具提供的工作流引擎, 为主数据的新增申请、 变更申请提供流程配置, 支持对每个审批节点进行设置, 如流程ID、 流程描述、 操作类型、 审批人、 通知模式等。

主数据管理

数据管理工具提供创建、 使用、 管理和监控主数据功能, 使用健全的工作流和审批功能, 支持企业范围的数据治理政策和流程, 并通过严格的管理流程, 实现主数据申请、 审核、 变更、 冻结和归档等全生命周期管理, 让业务用户能够访问统一、 可靠的主数据。
需要制定相应的主数据申请流程、审核节点、变更流程、冻结流程和归档流程。

主数据质量

主数据管理工具提供主数据质量规则设计、 主数据质量稽核、 主数据质量报告、 主数据问题处理等功能, 实现主数据质量从问题发现到问题处理的闭环管理。

主数据安全

主数据管理工具提供用户身份认证、 细颗粒度的权限控制、 分级授权、 安全审计、 数据签名、 敏感数据脱敏/加密等功能, 以保证主数据管理的应用安全、 接口安全和数据安全。

主数据集成

主数据管理工具提供数据库集成、 消息集成、 Web服务集成等多种主数据集成方式, 可灵活实现全量/增量数据与异构系统的交互, 实现主数据整合和分发。

  • 数据库集成: 数据源系统开放数据库接口, 供其他系统调用, 实现主数据集成共享。
  • 消息集成: 基于消息中间件, 通过消息队列的方式实现主数据的集成共享。
  • Web服务集成: 基于标准的Web接口服务实现主数据的集成共享, 常用的主数据Web接口支持SOAP、 REST两种接口协议。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/273109.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Maven之插件入门

官方文档&#xff1a;https://maven.apache.org/guides/plugin/guide-java-plugin-development.html 命名规范 <yourplugin>-maven-plugin 创建项目 生成项目 方式一、IDEA 2023 方式二、命令行 mvn archetype:generate -DgroupIdcn.lsj -DartifactIdhello-maven-pl…

Redis Streams在Spring Boot中的应用:构建可靠的消息队列解决方案【redis实战 二】

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 Redis Streams在Spring Boot中的应用&#xff1a;构建可靠的消息队列解决方案 引言前言Redis Streams的基本概念和特性1. 日志数据结构2. 消息和字段3. 消费者组4. 消息ID5. 实时和历史数据处理6. 性能…

DVWA靶场中的xss-反射型xss、存储型xss的low、medium、high的详细通关方法

目录 1.DVWA反射型xss &#xff08;1&#xff09;Low&#xff1a; &#xff08;2&#xff09;Medium&#xff1a; &#xff08;3&#xff09;Heigh 2.xss存储型 &#xff08;1&#xff09;Low&#xff1a; &#xff08;2&#xff09;Medium &#xff08;3&#xff09;He…

词法语法语义分析程序设计及实现,包含出错提示和错误恢复

词法说明 (1)关键字 main, int, char, if, else, for, while, void (2)运算符 - * / < < > > ! (3)界符 ; ( ) { } (4)标识符 ID letter(letter|digit)* (5)整型常数 NUM digit digit* (6)空格 ‘ ‘ ‘\n’ ‘\r’ ‘\t’ 空格用来分隔ID,NUM,运算符,界…

idea自动注释

前言 保存一下自己的自动注释代码 idea自动注释 前言1 创建类时&#xff0c;自动生成注释2 在方法上使用快捷键生成注释3 使用方法4 效果图 1 创建类时&#xff0c;自动生成注释 如下&#xff1a; #if (${PACKAGE_NAME} && ${PACKAGE_NAME} ! "")package …

亚马逊美国站ASTM F2613儿童折叠椅和凳子强制性安全标准

ASTM F2613折叠椅和凳子安全标准 美国消费品安全委员会&#xff08;CPSC&#xff09;发布的ASTM F2613儿童折叠椅和凳子的强制性安全标准&#xff0c;已于2020年7月6日生效&#xff0c;并被纳入联邦法规《16 CFR 1232儿童折叠椅和凳子安全标准》。 亚马逊要求在美国站上架的儿…

数据库基础面试第三弹

1. mysql数据库四种常见数据库引擎 1. MyISAM&#xff1a; MyISAM是MySQL最早的数据库引擎之一。它被设计成处理大量的插入和查询操作。MyISAM表格的数据存储在三个文件上&#xff1a;.frm文件存储表结构&#xff0c;.MYD文件存储数据&#xff0c;.MYI文件存储索引。MyISAM表…

【2023年12月18日-12月25日】一周AI咨询更新

上周&#xff0c;关于Google的Bard和Midjourney v6的讨论异常火热。 接下来&#xff0c;让我们回顾一下上周那些引人注目的AI新闻。 ① 已近乎真实拍摄&#xff1a;Midjourney v6的画质令人惊叹 由Midjourney v6制作的图片&#xff0c;质量之高&#xff0c;媲美电影级别&…

Spring高手之路-SpringBean的生命周期

目录 SpringBean的生命周期 整体介绍 详细介绍 1.实例化Bean 2.设置属性值 3.检查Aware 4.调用BeanPostProcessor的前置处理方法 5.调用InitializingBean的afterPropertiesSet方法 6.调用自定义init-method方法 7.调用BeanPostProcessor的后置处理方法 8.注册Destru…

【小黑嵌入式系统第十三课】PSoC 5LP第二个实验——中断控制实验

上一课&#xff1a; 【小黑嵌入式系统第十二课】μC/OS-III程序设计基础&#xff08;二&#xff09;——系统函数使用场合、时间管理、临界区管理、使用规则、互斥信号量 文章目录 1 实验目的2 实验要求3 实验设备4 实验原理4.1 中断(1) 中断机制概述(2) 中断源(3) 中断系统的功…

JMeter(十五)-JMeter监听器

十五、JMeter监听器 1.简介 监听器用来监听及显示JMeter取样器测试结果&#xff0c;能够以树、表及图形形式显示测试结果&#xff0c;也可以以文件方式保存测试结果&#xff0c;JMeter测试结果文件格式多样&#xff0c;比如XML格式、CSV格式。默认情况下&#xff0c;测试结果将…

stm32学习笔记:TIM-定时中断和外部时钟

定时器四部分讲解内容&#xff0c;本文是第一部分 ​​​​​TIM简介 基本定时器 时基单元&#xff1a;预分频器、计数器、自动重装载寄存器 预分频器之前&#xff0c;连接的就是基准计数时钟的输入&#xff0c;由于基本定时器只能选择内部时钟&#xff0c;所以可以认为这根…

最小覆盖子串(LeetCode 76)

文章目录 1.问题描述2.难度等级3.热门指数4.解题思路参考文献 1.问题描述 给你一个字符串 s 、一个字符串 t 。返回 s 中涵盖 t 所有字符的最小子串。如果 s 中不存在涵盖 t 所有字符的子串&#xff0c;则返回空字符串 “” 。 注意&#xff1a; 对于 t 中重复字符&#xff…

【DeepLearning】Deep Residual Learning for Image Recognition恺神大作学习

[TOC] Deep Residual Learning for Image Recognition 论文 1. 文章主要想解决什么问题&#xff0c;用了什么方法 深度神经网络在训练过程中的3个关键问题&#xff1a; 梯度消失/爆炸问题&#xff1a;随着网络层数的增加&#xff0c;梯度在反向传播过程中可能会变得非常小&a…

1.SQL - 概述

1. SQL语句分类 • 数据定义语言&#xff1a;简称DDL(Data Definition Language)&#xff0c;用来定义数据库对象&#xff1a;数据库&#xff0c;表&#xff0c;列等。关键字&#xff1a;create&#xff0c;alter&#xff0c;drop等 • 数据操作语言&#xff1a;简称DML(Data …

Spring 依赖注入概述、使用以及原理解析

前言 源码在我github的guide-spring仓库中&#xff0c;可以克隆下来 直接执行。 我们本文主要来介绍依赖注入的使用示例及其原理 依赖注入 什么是依赖注入 依赖注入&#xff08;Dependency Injection&#xff0c;简称DI&#xff09;是一种设计模式&#xff0c;它用于实现对…

【操作系统】探究文件系统奥秘:创建proc文件系统的解密与实战

​&#x1f308;个人主页&#xff1a;Sarapines Programmer&#x1f525; 系列专栏&#xff1a;Linux专栏&#xff1a;《探秘Linux | 操作系统解密》⏰诗赋清音&#xff1a;月悬苍穹泛清辉&#xff0c;梦随星河徜徉辉。情牵天际云千层&#xff0c;志立乘风意自飞。 ​ 目录 &a…

Vue3使用的Compostion Api和Vue2使用的Options Api有什么不同?

我们介绍Compostion Api和Options Api的区别之前&#xff0c;先来说一下为什么会推出来Composition Api&#xff0c;解决了什么问题&#xff1f; Vue2开发项目使用Options Api存在的问题 代码的可读性和维护性随着组件的变大业务的增多而变得差代码的共享和重用性存在缺点不支…

【centos】【golang】安装golang

下载安装包 方法1&#xff1a; 打开 https://go.dev/dl/ &#xff1b;点击下载golang的安装包&#xff1b;再使用ssh传到centos上&#xff08;略&#xff09; 方法2&#xff1a;能使用Google就可以这样 wget https://dl.google.com/go/go1.21.5.linux-amd64.tar.gz解压安装包…

渗透测试——1.4主动扫描

主动扫描是别人可以发觉的情报收集 一、nmap的使用 1.nmap<目标主机>:最常用的扫描方式 有nmap版本、扫描时间 “host is up”表示目标主机处于开机状态、“not shown”未开放端口 有四个端口是开的&#xff08;135.139.445.912&#xff09; 2.nmap -p<端口范围…
最新文章