Hadoop数据仓库之数据治理
Posted 柳小葱
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop数据仓库之数据治理相关的知识,希望对你有一定的参考价值。
🌸数据治理这个问题对于我一个小白来说,好像有点宽泛,从我自己的感觉来说,数据治理应该是有过很多数据体系建设经验之后的一些总结,今天我们就参考一些大佬的建议,对谈一谈数据治理,对以往内容感兴趣的同学可以参考👇:
- 第一篇: Hadoop之数据仓库概述.
- 第二篇: hadoop数仓建设之日志采集.
- 第三篇: Hadoop数仓建设之数据同步.
- 第四篇: Hadoop数仓建设之数据模型.
- 第五篇: Hadoop数仓建设之指标管理.
❄️从数据治理的理念上来看,“治”不应只在事后,更应在事前,“理”考验的是业务与技术能力的结合。从实际内容上来看,数据治理是一套方法体系+工具集,旨在帮助企业合理的架构数据、规范的定义与加工数据、清晰的管理数据、安全的应用数据,促使数据从成本中心变成价值中心,驱动企业数字化转型。
1.数据治理是什么?
数据治理:为公司业务越来越复杂而带来的数据越来越脏、乱、差的问题,而提出一套治理数据的方法+工具集
2. 数据治理的内容
这一部分,我将从六个方面来讲解数据治理的内容。
2.1 数据标准定义
数据维度及指标需要清晰的、统一的、标准的定义。(这里的部分参考Hadoop数仓建设之指标管理的文章,我这里列举一些例子)
- 维护业务术语库:要做到见名知义,同名同义、不同名不同义,公司命名尽量统一。
- 表命名规范:数据分层(ods/dwd/dwm/app)、采集周期(hour/day/week/month)、全量/增量(whole/increment)
- 指标命名规范: 原子指标 = 业务术语库 + 历史指标名;派生指标 = 统计周期+统计粒度+业务限定+原子指标。
- 维度命名规范:公司维度名=业务系统透传 + 业务术语库 + 历史字段名
- 数据类型:bigint、string、decimal ,备注comment。
2.2 数据模型规范
按业务领域拆解业务过程,根据业务过程设计数据模型,高内聚低耦合,尽量能够支撑未来扩展,一般采用维度建模+宽表模型,记得数据分层。一般模型确定过程如下:
- 确定业务过程
- 确定粒度
- 确定维度
- 定义指标
2.3 数据开发规范
在数据开发过程中有几点需要注意:编程规范,代码质量、运行稳定,SQL效率。如大数据之路中所述,过程一般分为以下几个部分:
开发、测试、CodeReview、[修改优化、测试、CodeReview]、审批、上线。
2.4 数据质量管理
- 保证数据可用、权威(数据的完整性、准确性、一致性、及时性)
- 从上游采集、中间的数据加工,下游的数据服务都需要一套质量检测工具来保障准确性、完整性、一致性、及时性。
- 指标预测(根据历史数据预测当日指标数据与当日实际指标数据比对)
- 数据剖析
2.5 元数据管理
- 数据表的血缘关系
- 使用频率统计(对使用频次低的表进行管理)
- 表的生命周期(存储需要成本,定期清理,归档)
2.6 数据安全
- 数据安全意识最重要!
- 对数据的安全等级、数据脱敏、表(列)级权限控制、(访问日志)安全审计制定详细的规则。
- 为数据的合规使用制定规范,必须在合规范围内安全使用数据。
3. 参考资料
《大数据之路》
《hadoop构建数据仓库》
以上是关于Hadoop数据仓库之数据治理的主要内容,如果未能解决你的问题,请参考以下文章