ETL 到底是什么?

Posted 栗子~~

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ETL 到底是什么?相关的知识,希望对你有一定的参考价值。

文章目录

前言

  如果您觉得有用的话,记得给博主点个赞,评论,收藏一键三连啊,写作不易啊^ _ ^。
  而且听说点赞的人每天的运气都不会太差,实在白嫖的话,那欢迎常来啊!!!


ETL 到底是什么?

1、概述:

先放上一段百度百科的解释:

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

那么详细点说ETL是什么?
ETL 负责将【分散的、异构数据源】中的数据和关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库和数据集市中,作为联机分析处理、数据挖掘提供决策支持的数据。

简单来说,对于BI项目中的ETL来说,ETL是将业务系统的数据,经边抽取、数据转换之后加载到数据仓库的过程。

2、ETL 设计的三部分

1)数据抽取;
2)数据的清洗转换;

  • 清洗:不完整的数据、错误的数据、重复的数据;
  • 转换:不一致的数据、数据粒度的转换、一些商务规则的计算;

3)数据的加载;

3、ETL 数据抽取经常要考虑的问题是什么?

1)对于存放DW的数据库系统相同的数据源怎么处理?
2)对于存放DW的数据库系统不相同的数据源怎么处理?
3)对于文件类型数据源怎么处理?
4)增量更新问题?

以上是关于ETL 到底是什么?的主要内容,如果未能解决你的问题,请参考以下文章

数据仓库中事实表的复合索引 - 数据集市

ETL 到底是什么?

数据仓库数据集市数据湖数据中台到底有什么区别?

数据仓库之ETL

大数据相关技术说明

数据仓库相关术语 对你运用Hive或者ETL有非常大的理解