Hadoop数据仓库之数据治理

Posted 2022-02-04 柳小葱

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hadoop数据仓库之数据治理相关的知识，希望对你有一定的参考价值。

🌸数据治理这个问题对于我一个小白来说，好像有点宽泛，从我自己的感觉来说，数据治理应该是有过很多数据体系建设经验之后的一些总结，今天我们就参考一些大佬的建议，对谈一谈数据治理，对以往内容感兴趣的同学可以参考👇：

❄️从数据治理的理念上来看，“治”不应只在事后，更应在事前，“理”考验的是业务与技术能力的结合。从实际内容上来看，数据治理是一套方法体系+工具集，旨在帮助企业合理的架构数据、规范的定义与加工数据、清晰的管理数据、安全的应用数据，促使数据从成本中心变成价值中心，驱动企业数字化转型。

1.数据治理是什么？

数据治理：为公司业务越来越复杂而带来的数据越来越脏、乱、差的问题，而提出一套治理数据的方法+工具集

这一部分，我将从六个方面来讲解数据治理的内容。

数据维度及指标需要清晰的、统一的、标准的定义。（这里的部分参考Hadoop数仓建设之指标管理的文章，我这里列举一些例子）

按业务领域拆解业务过程，根据业务过程设计数据模型，高内聚低耦合，尽量能够支撑未来扩展，一般采用维度建模+宽表模型，记得数据分层。一般模型确定过程如下：

在数据开发过程中有几点需要注意：编程规范，代码质量、运行稳定，SQL效率。如大数据之路中所述，过程一般分为以下几个部分：
开发、测试、CodeReview、[修改优化、测试、CodeReview]、审批、上线。

《大数据之路》
《hadoop构建数据仓库》

以上是关于Hadoop数据仓库之数据治理的主要内容，如果未能解决你的问题，请参考以下文章