什么是数据治理?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是数据治理?相关的知识,希望对你有一定的参考价值。

从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。

数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。

数据采集清洗:通过可视化的 ETL 工具将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。

基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。

元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。

血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。

质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。

商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。

数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。

参考技术A

从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。

数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。

数据采集清洗:通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。

数据可视化 - 派可数据商业智能BI

基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。

元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。

数据分析 - 派可数据商业智能BI

血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。

质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。

商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,像派可数据就属于专业的BI厂商。

数据可视化-派可数据商业智能BI

数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。

参考技术B

什么是数据治理

数据治理是逐步实现数据价值的过程,具体来说,数据治理是指将零散的用户数据通过采集、传输、储存等一系列标准化的流程变成格式规范、结构统一的数据,并有严格和规范的综合数据管控;对这些标准化的数据进行进一步加工分析成为具有指导意义的业务监控报表、业务监控模型以帮助业务进行辅助决策。

在数据治理流程当中,涉及到了前端业务系统,后端业务数据库系统再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统?。同样地,在数据治理流程当中,我们也需要一套标准化的规范来指导数据的采集、传输、储存以及应用。


数据治理流程

数据治理流程是从数据规划、数据采集、数据储存管理到数据应用整个流程的无序到有序的过程也是标准化流程9的构建过程。根据每一个过程的特点,我们可以将数据治理流程总结为四个字,即“理”、“采”、“存”、“用”。

1.理:梳理业务流程,规划数据资源

对于企业来说,每天的实时数据都会超过TB级别,需要采集用户的哪些数据,这么多的数据放在哪里,如何放,以什么样的方式放?这些问题都是需要事先进行规划的,需要有一套从无序变为有序的流程,这个过程需要跨部门的协作,包括了前端、后端、数据工程师、数据分析师、项目经理等角色的参与。

2.采:ETL采集、去重、脱敏、转换、关联、去除异常值

前后端将采集到的数据给到数据部门,数据部门通过ETL工具将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,目的是将散落和零乱的数据集中存储起来。

3.存:大数据高性能存储及管理

这么多的业务数据存在哪里?这需要有一高性能的大数据存储系统,在这套系统里面将数据进行分门别类放到其对应的库里面,为后续的管理及使用提供最大的便利。

4.用:即时查询、报表监控、智能分析、模型预测。

数据的最终目的就是辅助业务进行决策,前面的几个流程都是为最终的查询,分析,监控做铺垫。这个阶段就是数据分析师的主场,分析师们运用这些标准化的数据可以进行即时的查询、指标体系和报表体系的建立,业务问题的分析,其至是模型的预测。


数据治理包括哪几个方面?

数据治理是一套持续改善管理机制,通常包括了数据架构组织、数据模型、政策及体系制定、技术工具、数据标准、数据质量、影响度分析、作业流程、监督及考核等内容。从技术角度来看,数据治理涉及的IT技术主题包括元数据、数据标准、数据质量、数据集成、主数据、数据资产、数据交换、生命周期、数据安全多产品组成的一整套解决方案。

    元数据:采集汇总企业系统数据属性的信息,帮助各行各业用户获得更好的数据洞察力。

    数据标准:对分散在各系统中的数据提供一套统一的数据命名、数据定义、数据类型、赋值规则等的定义基准,并通过标准评估确保数据在复杂数据环境中维持企业数据模型的一致性、规范性。

    数据质量:有效识别各类数据质量问题,建立数据监管,形成数据质量管理体系,监控并揭示数据质量问题,提供问题明细查询和质量改进建议。

    数据集成:可对数据进行清洗、转换、整合、模型管理等处理工作。既可以用于问题数据的修正,也可以用于为数据应用提供可靠的数据模型。

    主数据:帮助企业创建并维护内部共享数据的单一视图,从而提高数据质量,统一商业实体定义,简化改进商业流程并提高业务的响应速度。

    数据资产:汇集企业所有能够产生价值的数据资源,为用户提供资产视图,快速了解企业资产,发现不良资产,为管理员提供决策依据,提升数据资产的价值。

    数据交换:用于实现不同机构不同系统之间进行数据或者文件的传输和共享,提高信息资源的利用率。

    数据安全:提供数据加密、脱敏、模糊化处理、账号监控等各种数据安全策略,确保数据在使用过程中有恰当的认证、授权、访问和审计等措施。

    生命周期:管理数据生命周期,建立数据自动归档和销毁,全面监控展现数据的生命过程。

参考技术C 谈到数据治理,很多企业经常讲它是一个涉及到企业战略、组织架构、数据标准、管理规范、数据文化、技术工具的一个综合体。没有数据治理实践经验的,一定会认为数据治理好“高大上”!又是战略、又是标准、又是文化。
然而,只有你真正做过数据治理人才知道:数据治理不仅都是脏活、累活,还是个受累不讨好,经常背锅,领导看不见价值的活。数据治理过程中,有时候是不被理解的。数据治理是个地基性工程,人们看到的永远是数据应用的“高楼大厦”,数据治理团队天天忙忙碌碌的,领导也不知道“这伙人”到底都在干啥?但是,只要数据出现问题,第一个被问责的就是数据治理团队。
都说数据是资产,数据治理很重要。大家也都说数据治理很重要,领导也很重视,但在很多企业真正实施的过程中,却总会遇到高层领导支持力度不足,业务部门人员配合不到位,数据治理的总是要给业务让路等等问题。究其原因:领导说重视数据,是真重视,还是嘴上说说?有没有将其纳入企业的战略行动计划?
数据治理要定战略、定制度、建组织,这是顶层策略,这每一项都牵一发而动全身,都需要高层领导的大力支持和推动,业务部门和技术部门的紧密协同。
数据治理要立标准、理流程、清数据,需要对每个数据域、数据实体、数据条目、数据项进行梳理和标准化,甚至有时候需要人工逐条、逐字段的定义数据标准、核实数据质量。数据治理人员不仅要有良好的数据思维,还要有足够的细心、耐心和体力才能实现企业数据质量的不断提升,打磨出适合企业的数据标准。
参考技术D 1. 数据治理的本质
可用性指数据可用、可信且有质量保证,不会因为分析结果的准确性造成偏差,从业者可以放心地根据数据结果做业务决策;完整性分为两个方面,一方面指数据需覆盖各类数据应用的需要,另一方面指不会因为数据治理没有到位而造成数据资产的流失,也即影响数据资产的积累,这也是神策数据在创业伊始便开展私有化部署的原因;安全性指治理和分享过程需安全可控,不侵犯用户隐私,且不会给组织留下安全隐患。

2. 数据治理的重要性
数据治理是所有数据应用的根基,数据治理的好坏直接影响所有数据应用的价值。

无论是基于数据看报表,还是做交互式的多维分析,还是做更复杂的个性化推荐,所有的数据应用都需要有一个良好的数据治理结果。神策本身就拥有一款推荐产品——神策智能推荐,通过这款产品的实践,我们发现,它的实施周期相比其它几个产品普遍偏长,这也是因为个性化推荐对于数据的质量和准确性要求相对更高。

简而言之,数据应用做得越深入,所需数据就会更多,对数据质量也会有更高的要求。

数据治理是组织数据资产沉淀的基础,数据治理的好坏直接决定了组织的数据资产能否得到沉淀,能否充分地发挥价

关于数据治理的读书笔记 - 什么是数据文化?

读书笔记的历史文章,

关于数据治理的读书笔记 - 什么是组织机制?

关于数据治理的读书笔记 - 什么是数据战略?

关于数据治理的读书笔记 - 企业数据治理的“道、法、术、器”

关于数据治理的读书笔记 - 数据治理、数据管理和数据管控的理解

关于数据治理的读书笔记 - 什么是数据治理?

都说“数字转型,文化先行”,但做起来,并不容易,“文化”可能很虚,但他的作用,不容忽视。良好的企业文化为员工提供了做选择时的指导方针,有利于企业数字化目标的实现。如果领导层和员工的看法不同,说明在企业上下并没有形成共识,这对于企业数字化的推进是很不利的。但是一种企业文化不是一朝一夕就能轻易形成的,数据治理也是一项长期的系统工程,潜移默化地融入企业文化中。

要建立“用数据思考、用数据说话、用数据管理”的数据文化,就需要从建立数据思维开始。

什么是数据思维?简单来讲,数据思维就是“用数据思考、用数据说话,用数据决策”。

(1) 用数据思考,就是要实事求是,坚持以数据为基础进行理性思考,避免情绪化、主观化,避免负面思维、以偏概全、单一视角、情急生乱。

(2) 用数据说话,就是要杜绝“大概”、“也许”、“可能”、“差不多”之类的词,而是要以数据为依据,进行合乎逻辑的推论。

(3) 用数据决策,就是要以事实为基础,以数据为依据,通过数据的关联分析、预测分析和事实推理得出结论,避免凭直觉做决策,做出情绪化的决策。

数据思维有三个特点,

(1) 善于简化 - 抓重点,善于简化。

(2) 注重量化 - 求精确,注重量化。

(3) 追求真理 - 知不知,追求真理。

建立数据思维,可以分4步走,

(1) 自上而下地推动。

(2) 营造数据驱动的文化氛围。

(3) 建立循序渐进的培训机制。

(4) 从实践中求真知。

培养数据文化的3个办法,

(1) 打破数据孤岛,实现共享数据

可以通过数据治理,建立统一的数据标准,打通系统之间的数据通道,消除系统之间的信息孤岛,实现数据共享。建立扁平化、灵活的数据治理组织体系,打破部门墙,实现部门之间的信息共享和团队协作。

(2) 建立制度体系,固化数据文化

数据文化的本质是以企业的数据战略为指引,以推动实现业务价值为目标,形成全员共识并共同遵循有关数据驱动的理念、价值标准和行为规范。

(3) 推行数据治理,增强数据文化

企业进行数字化转型的主要目的是通过管控和利用数据来推动企业业务的增长,而要达到这一目的就要实施有效的数据治理,以提升数据质量并保证数据的安全合规使用。

在企业的数据管理和应用的实践中,应以业务目标为核心,以数据为基础,以技术为支撑,以制度为保障,将数据文化“内化于心,外化于行,固化于制”,将“数据驱动”应用到实际的工作中,使其成为员工的自觉行为,并做到“知行合一”

拥有数据思维才能发现数据价值。企业数据治理治的不仅是数据,更是企业全员的思维方式。

近期更新的文章:

数字时代的冲击

关于数据治理的读书笔记 - 什么是组织机制?

Supercell带给我们的启示

最近碰到的问题

关于数据治理的读书笔记 - 什么是数据战略?

文章分类和索引:

公众号900篇文章分类和索引

以上是关于什么是数据治理?的主要内容,如果未能解决你的问题,请参考以下文章

数据仓库(11)什么是大数据治理,数据治理的范围是哪些

关于数据治理的读书笔记 - 什么是数据文化?

什么是数据治理?(目的方法流程)

什么是数据治理?(目的方法流程)

关于数据治理的读书笔记 - 数据治理路线图规划

大数据平台下的数据治理