大数据平台下的数据治理

Posted Pushkin.

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据平台下的数据治理相关的知识,希望对你有一定的参考价值。

文章目录

什么是数据治理

数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。

难题

随着以Hadoop生态与MPP生态技术的提升,数据如何进来,如何整合,开展什么样的应用都已经有了成熟的案例,可是,同传统数仓时代一样,垃圾进垃圾出,如何破?相比传统数仓时代,进入
数仓集群的数据更加的多样、更加的复杂、量更足,这个数仓时代都没有处理好的事情,如何能够在大数据时代处理好,这是所有大数据应用者最最期盼的改变,也是大数据平台建设者最有挑战的难题:数据治理难的不是技术,而是流程,是协同,是管理。

数据治理涉及的IT技术主题众多,包括元数据管理、主数据管理、数据质量、数据集成、监控与报告等。

大数据平台下的数据生命周期

数据治理关键场景

  • 生产数据
  • 分析数据
  • 历史数据

数据治理面临的挑战

  • 异构数据
  • 复杂业务数据
  • 安全合规问题

首先数据层面,业务中有很多异构数据比如文档,报告报表,GIS信息,NOSQL等。

其次业务层面,面对的是全公司所有的业务数据,各类业务或者系统数据都需要定制化或者协调标准进行统一采集,处理,标准化。

最后安全层面,数据的所有权、安全性。

数据治理关键问题

1. 海量系统规模

  • 几百个业务系统+
  • 几万张库表+
  • 几十万字段+

2. 复杂存储

  • 关系型数据库
  • 对象性数据库
  • 内存对象
  • K-V NO-SQL
  • 列模式数据仓库
  • HDFS分布式存储
  • MPP型存储

3. 复杂采集

  • 基于SQL
  • 存储过程
  • python、shell、scala、java、sparkSQL、FlinkSQL等等各类脚本

数据治理目标

数据治理的目标是保障数据及其应用过程中的运营合规、风险可控和价值实现,通过数据治理管理体系规范数据治理流程,保证数据治理的合规运营;通过数据治理价值体系推进数据资源的价值实现,提升数据价值。运营合规、风险可控是价值实现的基础,为价值实现提供一个良好的治理环境;价值实现则是运营合规、风险可控的升华,是数据治理的核心目标。

数据治理平台与周边系统关系

数据治理-元数据系统

数据治理-数据标准系统

数据治理-数据质量系统

数据治理平台-元数据建立

元数据-数据地图

血缘分析、影响分析


某银行数据治理案例

数据治理-平台现状

数据治理-治理改进方案

数据治理体系建设规划

以上是关于大数据平台下的数据治理的主要内容,如果未能解决你的问题,请参考以下文章

数据治理中的数据血缘关系是什么?用来解决什么问题

数据治理:元数据管理 数据血缘(补充学习)

数据治理:元数据管理 数据血缘(补充学习)

MDM数据血缘设计方案

数据治理中Oracle SQL和存储过程的数据血缘分析

大数据篇:一文读懂@数据仓库