数据仓库开发规范

Posted 2021-04-24 知了小巷

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了数据仓库开发规范相关的知识，希望对你有一定的参考价值。

背景

为了避免底层业务变动对上层需求影响过大，屏蔽底层复杂的业务逻辑，尽可能简单、完整的在接口层呈现业务数据，建设高内聚松耦合的数据组织，使数据从业务角度可分割，显得尤为重要。从整个集团业务条线出发，形成数据仓库总体概念框架，并对整个系统所需要的功能模块进行划分，明确各模块技术细节，建设一套完整的开发规范。

分层规范

ODS（原始数据层）：也被称为贴源层，ODS层是数据仓库准备区，为DWD层提供基础原始数据。

DWD（明细数据层）：和ODS粒度一致的明细数据，对数据进行去重，脏数据过滤，空处理，保证数据质量。

DWS（服务数据层）：轻度汇总数据及建宽表(按主题)存放数据。

ADS（应用数据层）：存放应用类表数据。

ODS - DWD - DWS - ADS

ODS - DW（轻度数据汇总层、高度数据汇总层） - DM（数据集市）

表规范

命名

维表命名形式：dim_描述

事实表命名形式：fact_描述_[AB]

临时表命名形式：tmp_ 正式表名_ [C自定义序号]

宽表命名形式：dws_主题_描述_[AB]

备份表命名形式：正式表名_bak_yyyymmdd

表命名解释：

1）表名使用英文小写字母，单词之间用下划线分开，长度不超过40个字符，命名一般控制在小于等于6级。

2）其中ABC第一位"A"时间粒度：使用"c"代表当前数据，"h"代表小时数据，"d"代表天数据，"w"代表周数据，"m"代表月数据，"q"代表季度数据， "y"代表年数据。

3）其中ABC的第二位"B"表示对象属性，用"t"表示表，用"v"表示视图。

4）其中ABC的第三位"C"自定义序号用于标识多个临时表的跑数顺序。

注释

注释要结合表的英文名，要求注释简洁明了，体现出表的业务出处、主题和用途。

存储格式

所谓的存储格式就是在Hive建表的时候指定的将表中的数据按照什么样子的存储方式，如果指定了方式，那么在向表中插入数据的时候，将会使用该方式向HDFS中添加相应的数据类型。在数仓中建表默认用的都是PARQUET存储格式，相关语句如下所示：

STORED AS INPUTFORMAT

'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'

OUTPUTFORMAT

'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'

字符集

Hadoop和hive 都是用utf-8编码的，在建表时可能涉及到中文乱码问题，所以导入的文件的字符编码统一为utf-8格式。

约定

理论上在数仓落地的表不应该出现null未知类型，对于可能出现null的字段，如果为字符型统一为空字符串，如果是数值则给0。

字段规范

命名

1）使用英文小写字母，单词之间用下划线分开，长度不超过30个字符，命名一般控制在小于等于4级；

2）和源数据ods层表字段名一致，如为新增字段，尽量言简意赅；

3）英文名尽量专业，符合业界要求，不得使用汉语拼音；

4）尽量避免使用关键字。如无法避免，使用”`”转义；

5）指标字段能使用缩写的尽量使用统一的缩写，如申请金额统计apply_amt_sum。

注释

注释本着简洁、详实、完整的原则，对于有业务含义的字段，在注释中需要枚举并解释其业务含义，如ods_loan_apidata_order_info.order_status 订单状态：1待支付，2支付不成功，3支付成功；

类型

日期时间等格式统一用string类型，字符串也是用string，数值的话，会根据字段定义来确定，对于有小数点要求的，比如某些金额、利率，需要用到decimal类型，无小数点要求的用浮点类型double和整数类型（int，bigint）。

代码规范

sql编码

1）关键字右对齐，代码注释详尽，查询字段时每行不超过三个字段，缩进时空四格等相关书写规范。

2）明细数据层依赖于ods层，应用数据层依赖于服务数据层，原则上，不允许跨层查询。

3）如果SQL语句连接多表时，应使用表的别名来引用列。

4）WHERE条件中参数与参数值使用的类型应当匹配，避免进行隐式类型转化。

5）在SELECT语句中只获取实际需要的字段。

shell脚本

调度脚本主要是通过跑shell脚本，shell脚本的注意点：

1）命名与所跑的目标表名相同，注释要完善，后缀以.sh结尾。

2）脚本头需要加上分割线、作者、日期、目的、描述等信息。

【END】

以上是关于数据仓库开发规范的主要内容，如果未能解决你的问题，请参考以下文章