数据治理有哪些误区?

大数据时代,数据成为社会和组织的宝贵资产,像工业时代的石油和电力一样驱动万物,然而如果石油的杂质太多,电流的电压不稳,数据的价值岂不是大打折扣,甚至根本不可用,不敢用,因此,数据治理是大数据时代我们用好海量数据的必然选择。

但大家都知道,数据治理是一项长期而繁杂的工作,可以说是大数据领域中的脏活累活,很多时候数据治理厂商做了很多工作,但客户却认为没有看到什么成果。大部分数据治理咨询项目都能交上一份让客户足够满意的答卷,但是当把咨询成果落地到实处的时候,因为种种原因,很可能是另一番截然不同的风景。如何避免这种情况发生,是每一个做数据治理的企业都值得深思的问题。

可以说在业界,大家都为如何做好数据治理而感到困惑。笔者涉猎大数据治理领域有6年多的时间,负责过政府、军工、航空、大中型制造企业的数据治理项目。在实践当中有过成功的经验,当然也经历过很多失败的教训,在这些过程中,笔者一直在思考大数据治理究竟是在治理什么?要达到什么样的合理目标?中间应该怎么避免走一些弯路?下面是笔者曾经趟过的坑,希望对大家有一些借鉴意义。

误区一:客户需求不明确客户既然请厂商来帮助自己做数据治理,必定是看到了自己的数据存在种种问题。但是做什么,怎么做,做多大的范围,先做什么后做什么,达到什么样的目标,业务部门、技术部门、厂商之间如何配合做……很多客户其实并没有想清楚自已真正想解决的问题。数据治理,难在找到一个切入点。以笔者的经验来看,如果客户暂时想不清楚需求,建议先请厂商帮助自己做一个小型的咨询项目,通过专业的团队,大家一起找到切入点。这个咨询项目工作的重点应该是数据现状的调研。通过调研数据架构、现有的数据标准和执行情况,数据质量的现状和痛点,客户目前已经具有的数据治理能力现状等,来摸清楚数据的家底。在摸清家底的基础上,由专业的数据治理团队帮助客户设计切实可行的数据治理路线图,双方取得一致的基础上,按照路线图来执行数据治理工作。其实客户很多时候并不是没需求,只是需求相对比较笼统,模糊不清晰,双方可以花费一定的时间和精力找到真正目标,磨刀不误砍柴工,这样才不致于后续花更多的钱来交学费。总结:数据治理工作,一定要先摸清楚数据的家底,规划好路线图,切忌一上来就搭平台。

误区二:数据治理是技术部门的事在大数据时代,很多组织认识到了数据的价值,也成立了专门的团队来负责管理数据,有的叫数据管理处,有的叫大数据中心,有的叫数据应用处,名称不一而足。这些机构往往由技术人员组成,本身的定位也属于技术部门,它们的共同点是:强技术,弱业务。当数据治理项目需要实施的时候,往往就是由这些技术部门来牵头。技术部门大多是以数据中心或者大数据平台为出发点,受限于组织范围,不希望扩大到业务系统,只希望把自已负责的范围管好。但数据问题产生的原因,往往是业务>技术。可以说大部分的数据质量问题,都是来自于业务,如:数据来源渠道多,责任不明确,导致同一份数据在不同的信息系统有不同的表述;业务需求不清晰,数据填报不规范或缺失,等等。很多表面上的技术问题,如ETL过程中某代号变更导致数据加工出错,影响报表中的数据正确性等,在本质上其实还是业务管理的不规范。笔者在与很多客户做数据治理交流的时候,发现大部分客户认识不到数据质量问题发生的根本原因,只想从技术维度单方面来解决数据问题,这样的思维方式导致客户在规划数据治理的时候,根本没有考虑到建立一个涵盖技术组、业务组的强有力的组织架构,能有效执行的制度流程,导致效果大打折扣。总结:数据治理既是技术部门的事,更是业务部门的事,一定要建立多方共同参与的组织架构和制度流程,数据治理的工作才能真正落实到人,不至于浮在表面。

误区三:大而全的数据治理出于投资回报的考虑,客户往往倾向于做一个覆盖全业务和技术域的,大而全的数据治理项目。从数据的产生,到数据的加工,应用,销毁,数据的整个生命周期他们希望都能管到。从业务系统,到数据中心,到数据应用,里面的每个数据他们希望都能被纳入到数据治理的范围中来。但殊不知广义上的数据治理是一个很大的概念,包括很多内容,想在一个项目里就做完通常是不可能的,而是需要分期分批地实施,所以厂商如果屈从于客户的这种想法,很容易导致最后哪个也做不好,用不起来。所以,我们需要引导客户,从最核心的系统,最重要的数据开始做数据治理。怎么引导客户呢?这里要引入一个众所周知的概念:二八原则。实际上,二八原则在数据治理中同样适用:80%的数据业务,其实是靠20%的数据在支撑;同样的,80%的数据质量问题,其实是由那20%的系统和人产生的。在数据治理的过程中,如果能找出这20%的数据,和这20%的系统和人,毫无疑问,将会起到事半功倍的效果。

但如何说服客户,从最重要的数据开始做起呢?这就是我们在误区一中谈到的:在没有摸清楚数据的家底之前,切忌贸然动手开始做。通过调研,分析,找出那20%的数据和20%的系统和人,提供真实可靠的分析报告,才有可能打动客户,让客户接受先从核心系统,核心数据开始做起,再渐渐覆盖到其他领域。总结:做数据治理,不要贪大求全,而要从核心系统,重要的数据开始做起。

误区四:工具是万能的很多客户都认为,数据治理就是花一些钱,买一些工具,认为工具就是一个过滤器,过滤器做好了,数据从中间一过,就没问题了。结果是:一方面功能越做越多,另一方面实际上线后,功能复杂,用户不愿意用。其实上面的想法是一种简单化的思维,数据治理本身包含很多的内容,组织架构、制度流程、成熟工具、现场实施和运维,这四项缺一不可,工具只是其中一部分内容。大家在做数据治理最容易忽视的就是组织架构和人员配置,但实际上所有的活动流程、制度规范都需要人来执行、落实和推动,没有对人员的安排,后续工作很难得到保障。一方面治理推广工作没人做,流程能否坚持执行得不到保障。另一方面没有相关的数据治理培训,导致大家对数据治理的工作不重视,认为与我无关,从而导致整个数据治理项目注定会失败。建议大家在做数据治理的时候将组织架构放在第一位,有组织的存在,就会有人去思考这方面的工作,怎么去推动,持续把事情做好,以人为中心的数据治理工作,才更容易推广落地。有一位国外的数据治理专家说得好,Data Governance is governance of people; Data behaves what people behave。翻译过来就是:数据治理是对人的行为的治理。对于组织而言,无论是企业还是政府,数据治理实质上是一项覆盖全员的、有关数据的“变革管理”,会涉及到组织架构,管理流程的变革。

当然,这是一种理想的状态。话说回来,我们看看国内的情况,在金融业和一些大的企业,可能会建立专门的组织来负责数据治理工作,但是某些政府和中小型企业,他们出于成本的考虑,往往没有这方面的预算。这种时候就需要折衷考虑,让已有岗位上的人,兼职负责数据治理的某个流程或功能。这样会加大现有岗位人员的工作负担,但是不失为一种折衷的方式,重点是要责任到人。现场的实施和运维也非常重要,尽管数据治理有向自动化的方向发展的趋势,但是到目前为止,数据治理更多还是一种服务工作,而不仅仅是一套产品。因此,配置足够强的实施顾问和实施人员,帮助客户逐步打造自身的数据治理能力,是一项非常重要的工作。总结:记住,做数据治理不是去逛逛shopping mall,选几样称心应手的工具回来就万事大吉了。开展好数据治理不能迷信工具,组织架构、制度流程、现场的实施和运维也非常重要,缺一不可。

误区五:数据标准难落地很多客户一说到数据治理,马上就说我们有很多数据标准,但是这些标准却统统没有落地,因此,我们要先做数据标准的落地。数据标准真正落地了,数据质量自然就好了。但这种说法其实混淆了数据标准和数据标准化。首先要明白一个道理:数据标准是一定要做的,但是数据标准化,也就是数据标准的落地,则需要分情况实施。要做数据标准,我们首先需要全面梳理数据标准。而数据标准的全面梳理,范围很大,包括国家标准,行业标准,组织内部的标准等等,需要花费很大的精力,甚至都可以单独立一个项目来做。所以,首先需要让客户看到梳理数据标准的广度和难度。其次,就算是花很大精力梳理,也很难看到效果,结果往往是客户只看到了一堆Word和Excel文档,时间一长,谁也不会再去关心这些陈旧的文档。这是最普遍的问题。在金融业,或者像国家安全等一些特殊行业,数据标准的执行力度较好,而在政府和普通企业,数据标准基本上就是一种摆设。造成这种问题的原因有两个:一是大家对数据标准工作的不重视。二是国内的企业做数据标准,动机往往不是为了做好数据治理,而是应付上级检查,很多都是请咨询公司,借鉴同行业企业的标准本地化修改而成,一旦咨询公司撤离,企业本身是没有数据标准落地的能力的。但数据标准的落地,也就是数据标准化,其实一定要注意分情况进行,至少要分两种情形:一类是已经上线运行的系统,对于这部分信息系统,由于历史原因,很难进行数据标准的落地。因为改造已有系统,除了成本以外,往往还会带来不可知的巨大风险。第二类是对于新上线的系统,是完全可以要求其数据项严格按照数据标准落地的。当然,数据标准是否能顺利落地,还与负责数据治理的部门所获得的权限直接相关,倘若没有领导的授权和强力支持,你是无论如何无法推动“书同文车同轨”的,要做到这一点,请先确认你背后站着说一不二的秦始皇,或者你本身就是秦始皇。别抱怨,这就是每个做数据治理的团队面临的现状。

总结:数据标准落地难是数据治理中的普遍性问题,实施过程中需要区要分遗留系统和新建系统,分别来执行不同的落地策略。

误区六:数据质量问题找出来了,然后呢?辛辛苦苦建立起来平台,业务和技术人员通力合作,配置好了数据质量的检核规则,也找出来了一大堆的数据质量问题,然后呢?半年之后,一年之后,同样的数据质量问题依旧存在。发生这种问题的根源在于没有形成数据质量问责的闭环。要做到数据质量问题的问责,首先需要做到数据质量问题的定责。定责的基本原则是:谁生产,谁负责。数据是从谁那里出来的,谁负责处理数据质量问题。这种闭环不一定非要走线上流程,但是一定要做到每一个问题都有人负责,每一个问题都必须反馈处理方案,处理的效果最好是能够形成绩效评估,如通过排名的方式,来督促各责任人和责任部门处理数据质量问题。

这其实还是要追溯到我们在误区二里谈到的:要建立组织架构和制度流程,否则数据治理工作中的种种事情,没有人负责,没有人去做。总结:数据质量问题的解决,要形成每一个环节都有确定责任人的闭环机制和反馈机制。

误区七:你们好像什么也没做?很多数据治理的项目难验收,客户往往有疑问:你们做数据治理究竟干了些啥?看你们汇报说干了一大堆事情,我们怎么什么都看不到?发生这种情况,原因往往有前面误区一所说的客户需求不明确,误区三所说的做了大而全的数据治理而难以收尾等,但还有一个原因不容忽视,那就是没有让客户感知到数据治理的成果。用户缺乏对数据治理成果的感知,导致数据治理缺乏存在感,特别是用户方的领导决策层,自然不会痛快地对项目进行验收。遇到这种情况,一句“宝宝心里苦,但宝宝不说”是无济于事的。一个项目从销售、售前、到组织团队实施,多少人付出了辛勤的汗水。重要的是让客户认识到项目的重要价值,最终为所有人的付出买单啊。在我看来,在数据治理的项目需求阶段,就应该坚持业务价值导向,把数据治理的目的定位在有效地对数据资产进行管理,确保其准确、可信、可感知、可理解、易获取,为大数据应用和领导决策提供数据支撑。并且在这个过程中,一定要重视并设计数据治理的可视化呈现效果,诸如:管理了多少元数据,是否应该用数据资产地图漂亮地展示出来。管理了多少数据资产,哪些来源,哪些主题,来自于什么数据源,是否应该用数据资产门户的方式展示出来。数据资产用什么方式对上层应用提供服务,这些对外服务是如何管控的,谁使用了数据,用了多少数据,是否应该用图形化的方式进行统计和展现。建立了多少条清洗数据的规则,清洗了多少类数据,是否应该用图表展示出来。发现了多少条问题数据,处理了多少条问题数据,是否应该有一个不断更新的统计数字来表示。数据质量问题逐月减少的趋势,是否应该用趋势图展现出来。数据质量问题根据部门、系统的排名,是否应该加在数据质量报告中,提供给决策层,帮助客户进行绩效考核。数据分析、报表等应用,因为数据问题而必须回溯来源和加工过程的次数,是否应该统计逐月下降的趋势;之前的回溯方式,和现在通过血缘管理更清楚地定位问题数据产生的环节,这两者之间进行对比,节省了客户多少时间和精力,是否应该有一个公平的评估,并提交给客户。用户之前找数据平均使用的时间,现在找数据平均需要的时间,是否能通过访谈的方式得到公平的结论,提交给客户。……以上这些都是提升数据治理存在感的手段。除了这些之外,时常组织交流和培训,引导客户认识到数据治理的重要性,让客户真正认识到数据治理工作对他们业务的促进作用,逐步转移数据治理的能力给客户等,这些都是平时需要注意的工作。总结:传统的数据治理工作不重视效果的呈现,我们做数据治理工作,一定要从需求开始,就想办法让客户直观地看到成果。在激烈的市场竞争下,大数据厂商提出来数据治理的各种理念,有的提出覆盖数据全生命周期的数据治理,有的提出以用户为中心的自服务化数据治理,有的提出减少人工干预、节省成本的基于人工智能的自动化数据治理,在面对这些概念的时候,我们一方面要对数据现状有清晰的认识,对数据治理的目标有明确的诉求,另一方面还要知道数据治理中各种常见的误区,跨越这些陷阱,才能把数据治理工作真正落到实处,项目取得成效,做到数据更准确,数据更好取,数据更好用,真正地用数据提升业务水平。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/12181.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

坚鹏:《银行业数字化转型指导意见》政策解读及银行数字化转型

中国银保监会《关于银行业保险业数字化转型的指导意见》政策解读及银行数字化转型 课程背景: 很多银行存在以下问题: 不知道如何准确理解中国银保监会《关于银行业保险业数字化转型的指导意见》相关政策 不清楚中国银保监会《关于银行业保险业数字化…

TensorFlow 深度学习第二版:1~5

原文:Deep Learning with TensorFlow Second Edition 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自【ApacheCN 深度学习 译文集】,采用译后编辑(MTPE)流程来尽可能提升效率。 不要担心自己的形象,只…

L2-044 大众情人分数 25分

人与人之间总有一点距离感。我们假定两个人之间的亲密程度跟他们之间的距离感成反比,并且距离感是单向的。例如小蓝对小红患了单相思,从小蓝的眼中看去,他和小红之间的距离为 1,只差一层窗户纸;但在小红的眼里&#xf…

36岁大龄程序员被裁,找了2个月工作,年包从100万降到50万,要不要接?

为了找到工作,你愿意接受降薪多少? 一位36岁的杭州程序员问: 36岁被裁,找了2个月工作,年包从100万降到50万,真心纠结,要不要接? 网友们分成了旗帜鲜明的两派,一派人认为不…

【面试题】20个常见的前端算法题,你全都会吗?

现在面试中,算法出现的频率越来越高了,大厂基本必考 今天给大家带来20个常见的前端算法题,重要的地方已添加注释,如有不正确的地方,欢迎多多指正💕 大厂面试题分享 面试题库 前后端面试题库 (…

基于RDF本体模型和图数据库实现知识查询与推理

基于RDF本体模型和图数据库实现知识查询与推理 基于RDF本体模型和图数据库实现知识查询与推理一、案例本体模型解释二、数据构建与查询 Here’s the table of contents: 基于RDF本体模型和图数据库实现知识查询与推理 本文主要使用ONgDB图数据库和Neosemantics组件,…

运行时内存数据区之虚拟机栈——操作数栈

操作数栈 每一个独立的栈帧中除了包含局部变量表以外,还包含一个后进先出(Last-In-First-Out)的操作数栈,也可以称之为表达式栈(Expression Stack)。操作数栈,在方法执行过程中,根据字节码指令,往栈中写入数据或提取数…

《花雕学AI》06:抢先体验ChatGPT的九个国内镜像站之试用与综合评测

最近ChatGPT持续大火,大家们是不是在网上看到各种和ChatGPT有趣聊天的截图,奈何自己实力不够,被网络拒之门外,只能眼馋别人的东西。看别人在体验,看别人玩,肯定不如自己玩一把舒服的啊。 上一期&#xff0…

视图的使用

为什么引入视图(Views) 如果您读过其他类似的书,可能会看到这些书在介绍视图时列举了许多引入视图的原因。其中认为最重要的原因是维护数据的独立性。那么什么是数据的独立性呢? 早期信息系统的设计与开发多采用模块驱动方式&am…

如何使用Win10搭建我的世界Minecraft服务器

简单几步在windwos搭建我的世界服务器,并通过cpolar工具将本地服务暴露到公网连接 1. Java环境搭建 以windows10系统为例,配置java环境,搭建我的世界服务器,下载最新版java版本 Java Downloads | Oracle 选择exe文件,下载完成后双击安装包…

从Hive源码解读大数据开发为什么可以脱离SQL、Java、Scala

从Hive源码解读大数据开发为什么可以脱离SQL、Java、Scala 前言 【本文适合有一定计算机基础/半年工作经验的读者食用。立个Flg,愿天下不再有肤浅的SQL Boy】 谈到大数据开发,占据绝大多数人口的就是SQL Boy,不接受反驳,毕竟大…

开发者笑疯了! LLaMa惊天泄露引爆ChatGPT平替狂潮,开源LLM领域变天

来源: 新智源 微信号:AI-era Meta的LLaMA模型开源,让文本大模型迎来了Stable Diffustion时刻。谁都没想 谁能想到,一次意外的LLaMA泄漏,竟点燃了开源LLM领域最大的创新火花。 一系列表现出色的ChatGPT开源替代品——「羊驼家族」…

全网最详细,Jmeter性能测试-性能基础详解,接口关联与编写Java脚本(三)

目录:导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜)前言 接口关联 接口关联…

水塘抽样解决随机选择问题

1.简介 水塘抽样是一系列的随机算法,其目的在于从包含n个项目的集合S中选取k个样本,其中n为一很大或未知的数量,尤其适用于不能把所有n个项目都存放到内存的情况。最常见例子为Jeffrey Vitter在其论文中所提及的算法R。 2.算法步骤&#xff1…

机器学习算法系列(三)

机器学习算法之–对数几率回归(逻辑斯蒂回归)算法 上个算法(算法系列二)介绍了如何使用线性模型进行回归学习,但若要做的是分类任务,则需要找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值…

一次etcd变更引发的惨案

问题描述 在做etcd的数据变更时候,etcd在组成集群的时候出现leader不断切换问题,导致集群不稳定,都面将不健康的etcd节点踢出,只剩etcd单节点,后面将踢出的etcd节点重新加入现有etcd,导致etcd集群奔溃&…

【故障诊断】基于 KPCA 进行降维、故障检测和故障诊断研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

快速搭建第一个SpringCloud程序

目录 1、Spring Boot项目脚手架快速搭建 1.1 生成工程基本配置 1.2 生成工程。 1.3 导入开发工具(此处为Idea) 1.4 运行代码 1.5 验证是否能访问 2、Spring Cloud环境搭建 2.1 版本匹配问题 2.2 Spring Cloud环境测试 3、引入Eureka Server 3…

运行时内存数据区之虚拟机栈——局部变量表

这篇内容十分重要,文字也很多,仔细阅读后,你必定有所收获! 基本内容 与程序计数器一样,Java虚拟机栈(Java Virtual Machine Stack)也是线程私有的,它的生命周期与线程相同。虚拟机栈描述的是Java方法执行的线程内存模型&#xf…

【从零开始学Skynet】基础篇(六):MySql数据库安装操作

游戏服务端的另一项重要功能是保存玩家数据,Skynet提供了操作MySQL数据库、MongoDB数据库的模块。1、数据库安装 首先安装Mysql服务器,打开终端输入如下指令: sudo apt-get install mysql-server 按下回车,输入密码后开始安装&a…