数仓建模—数据报表体系搭建

Posted 不二人生

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数仓建模—数据报表体系搭建相关的知识,希望对你有一定的参考价值。

数据报表体系搭建

信息化、数字化社会加速到来,企业纷纷开始布局数字化转型,数字经济将成为未来世界中最为火热的新型经济。

数据报表作为企业数字化转型的代表节点之一,未来会成为数字化企业的基本配置。

明确数据报表体系价值

要想企业全身心投入数据报表体系建设中,那就必须搞清楚数据报表对于企业而言到底有何价值,对企业发展有什么补益。

谈论企业的数据报表,绝对逃不开的就是企业的业务发展。在数字化、信息化来临之前,业务标准难以量化,管理人员大多只能凭借直接和经验业务决策,具有很强的不确定性,风险程度很高。

企业完成初期信息化建设之后,业务指标都量化为了业务系统中的数据,这些数据经过数据分析人员的汇总处理,转化成了数据报表以提供企业发展的各种信息,由此,数据产生了各种价值:

  • 通过这些数据报表,管理人员可以获知企业发展的各种信息,监控企业业务发展状况,避免因为信息不足导致企业陷入困境。
  • 数据报表还可以将业务数据以不同的形式展现出来,通过观察这些信息,企业业务数据一旦有什么异常,数据分析人员就能立即发现,辅助管理人员及时调整业务发展方向。
  • 数据报表还可以提供给业务人员使用,把从业务中诞生的数据还回到业务当中,把以往的经验改为数据报表,透过数据的形式判断业务实施成果,只有靠数据报表指导运营,企业才会把业务人员解放出来。
  • 此外,数据报表也可以帮企业制定业务部门的绩效目标,因为数据报表已经将企业的业务流程进行了量化,管理人员能够通过科学的方式对各部门员工进行针对化管理,进行考核。

<

手把手教你如何搭建一个数据仓库


实用干货来了!


手把手教你如何搭建一个数据仓库

数仓全景图镇楼 

00

建设过程

手把手教你如何搭建一个数据仓库

数仓建模的过程分为业务建模、领域建模、逻辑建模和物理建模,但是这  些步骤比较抽象。为了便于落地,我根据自己的经验,总结出上面的七个步骤:梳理业务流程、垂直切分、指标体系梳理、实体关系调研、维度梳理、数仓分层以及物理模型建立。每个步骤不说理论,直接放工具、模板和案例。


01

业务流程



1

找到公司核心业务流程,找到谁,在什么环节,做什么关键动作,得到什么结果。

手把手教你如何搭建一个数据仓库




2

梳理每个业务节点的客户及关注重点,找到数据在哪。

手把手教你如何搭建一个数据仓库





02

分域/主题




3

决定数仓的建设方式,快速交活,就用自下而上的建设。要全面支撑,就顶层规划,分步实施,交活稍微慢点。

手把手教你如何搭建一个数据仓库





4

同时按照业务领域划分主题域。主题域的划分方法有:按业务流划分(推荐)、按需求分、按职责分、按产品功能分等。

手把手教你如何搭建一个数据仓库






03

指标体系





5

指标的意义在于统一语言,统一口径。所以指标的定义必须有严格的标准。否则如无根之水。

手把手教你如何搭建一个数据仓库

指标可分为原子指标、派生指标和衍生指标,其含义及命名规则举例如下:

手把手教你如何搭建一个数据仓库






6

依照指标体系建设标准,开始梳理指标体系。整个体系同样要以业务为核心进行梳理。同时梳理每个业务过程所需的维度。维度就是你观察这个业务的角度,指标就是衡量这个业务结果 坏的量化结果。手把手教你如何搭建一个数据仓库

请注意,此时不能被现有数据局限。如果分析出这个业务过程应该有这个指标,但是没有数据,请标注出来,提出收集数据的需求。






04

实体关系





7

每个业务动作都会有数据产生。我们将能够获取到的数据,提取实体,绘制ER图,便于之后的维度建模。

手把手教你如何搭建一个数据仓库







8

同样以业务过程为起点向下梳理,此时的核心是业务表。把每张表中涉及的维度、指标都整理出来。

手把手教你如何搭建一个数据仓库






05

维度整理






9

维度标准化是将各个业务系统中相同的维度进行统一的过程。其字段名称、代码、名字都可能不一样,我们需要完全掌握,并标准化。

手把手教你如何搭建一个数据仓库

维度的标准尽可能参照国家标准、行业标准。例如地区可以参照国家行政区域代码。

另外,有些维度存在层级,如区域的省、市、县。绝大多数业务系统中的级联就是多层级维度。








06

数仓分层


10

数据仓库一般分为4层,名字可能会不一样,但是其目的和建设方法基本一致:

手把手教你如何搭建一个数据仓库

每一层采用的建模方法都不一样,其核心是逐层解耦。越到底层,越接近业务发生的记录,越到上层,越接近业务目标。







11

依托数仓分层的设计理论,根据实际业务场景,我们就可以梳理出整体的数据流向图。这张图会很清晰的告诉所有人,数据从那来,到哪里去,最终提供什么样的服务。

手把手教你如何搭建一个数据仓库



07

模型建立








12

此时才真正进入纯代码阶段。数仓、ETL工具选型;ETL流程开发;cube的建立;任务调度,设定更新方式、更新频率;每日查看日志、监控etl执行情况等等。

手把手教你如何搭建一个数据仓库

前面梳理清楚了,ETL会变的非常清晰

私货

1、数仓建设必须从业务中来,到业务中去;

2、数仓分层的目的是业务解耦;

3、无论哪种建模方式,其核心是业务实体;

4、按领域建设能快速交活,后遗症将会在2年之后爆发,且难以解决;

5、数仓建设应该把75%的时间投入到设计阶段,如果不是,那你就惨了;

6、数仓本身也可以迭代。

7、传统数仓并没有一种叫做“宽表模型”的模型,大数据时代新诞生的名词,因为很多大数据组件join代价极高。实际上是范式退化。


猜你喜欢

1、

2、

3、

4、

以上是关于数仓建模—数据报表体系搭建的主要内容,如果未能解决你的问题,请参考以下文章

大数据基础知识——数仓的搭建(维度建模)

如何搭建一个数据仓库

基于阿里(OneData)的数仓体系建设

基于阿里(OneData)的数仓体系建设

基于阿里(OneData)的数仓体系建设

数仓建模分层理论