Hadoop数据仓库之数据治理

Posted 柳小葱

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop数据仓库之数据治理相关的知识,希望对你有一定的参考价值。

🌸数据治理这个问题对于我一个小白来说,好像有点宽泛,从我自己的感觉来说,数据治理应该是有过很多数据体系建设经验之后的一些总结,今天我们就参考一些大佬的建议,对谈一谈数据治理,对以往内容感兴趣的同学可以参考👇:

❄️从数据治理的理念上来看,“治”不应只在事后,更应在事前,“理”考验的是业务与技术能力的结合。从实际内容上来看,数据治理是一套方法体系+工具集,旨在帮助企业合理的架构数据、规范的定义与加工数据、清晰的管理数据、安全的应用数据,促使数据从成本中心变成价值中心,驱动企业数字化转型。

1.数据治理是什么?

数据治理:为公司业务越来越复杂而带来的数据越来越脏、乱、差的问题,而提出一套治理数据的方法+工具集

2. 数据治理的内容

这一部分,我将从六个方面来讲解数据治理的内容。

2.1 数据标准定义

数据维度及指标需要清晰的、统一的、标准的定义。(这里的部分参考Hadoop数仓建设之指标管理的文章,我这里列举一些例子)

  • 维护业务术语库:要做到见名知义,同名同义、不同名不同义,公司命名尽量统一。
  • 表命名规范:数据分层(ods/dwd/dwm/app)、采集周期(hour/day/week/month)、全量/增量(whole/increment)
  • 指标命名规范: 原子指标 = 业务术语库 + 历史指标名;派生指标 = 统计周期+统计粒度+业务限定+原子指标。
  • 维度命名规范:公司维度名=业务系统透传 + 业务术语库 + 历史字段名
  • 数据类型:bigint、string、decimal ,备注comment。

2.2 数据模型规范

按业务领域拆解业务过程,根据业务过程设计数据模型,高内聚低耦合,尽量能够支撑未来扩展,一般采用维度建模+宽表模型,记得数据分层。一般模型确定过程如下:

  • 确定业务过程
  • 确定粒度
  • 确定维度
  • 定义指标

2.3 数据开发规范

在数据开发过程中有几点需要注意:编程规范,代码质量、运行稳定,SQL效率。如大数据之路中所述,过程一般分为以下几个部分:
开发、测试、CodeReview、[修改优化、测试、CodeReview]、审批、上线。

2.4 数据质量管理

  1. 保证数据可用、权威(数据的完整性、准确性、一致性、及时性)
  2. 从上游采集、中间的数据加工,下游的数据服务都需要一套质量检测工具来保障准确性、完整性、一致性、及时性。
  3. 指标预测(根据历史数据预测当日指标数据与当日实际指标数据比对)
  4. 数据剖析

2.5 元数据管理

  1. 数据表的血缘关系
  2. 使用频率统计(对使用频次低的表进行管理)
  3. 表的生命周期(存储需要成本,定期清理,归档)

2.6 数据安全

  1. 数据安全意识最重要!
  2. 对数据的安全等级、数据脱敏、表(列)级权限控制、(访问日志)安全审计制定详细的规则。
  3. 为数据的合规使用制定规范,必须在合规范围内安全使用数据。

3. 参考资料

《大数据之路》
《hadoop构建数据仓库》

以上是关于Hadoop数据仓库之数据治理的主要内容,如果未能解决你的问题,请参考以下文章

数据仓库(12)数据治理之数仓数据管理实践心得

数据仓库之数据质量建设(深度好文)

数据仓库之数据质量建设(深度好文)

打赢数据安全攻坚战,从Hadoop-security治理说起!

大数据之数据治理架构 —— Atlas

Hadoop之数据仓库概述