什么是数据ETL

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了什么是数据ETL相关的知识,希望对你有一定的参考价值。

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。

ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

扩展资料

ETL(orELT)的流程可以用任何的编程语言去开发完成,由于ETL是极为复杂的过程,而手写程序不易管理,有愈来愈多的企业采用工具协助ETL的开发,并运用其内置的metadata功能来存储来源与目的的对应(mapping)以及转换规则。

工具可以提供较强大的连接功能(connectivity)来连接来源端及目的端,开发人员不用去熟悉各种相异的平台及数据的结构,亦能进行开发。

当然,为了这些好处,付出的代价便是金钱。

参考资料来源:百度百科-ETL

参考技术A

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。

扩展资料:

ETL与ELT:

ETL所描述的过程,一般常见的作法包含ETL或是ELT(Extract-Load-Transform),并且混合使用。通常愈大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库,愈偏向使用ELT,以便运用目的端数据库的平行处理能力。

ETL(orELT)的流程可以用任何的编程语言去开发完成,由于ETL是极为复杂的过程,而手写程序不易管理,有愈来愈多的企业采用工具协助ETL的开发,并运用其内置的metadata功能来存储来源与目的的对应(mapping)以及转换规则。

工具可以提供较强大的连接功能(connectivity)来连接来源端及目的端,开发人员不用去熟悉各种相异的平台及数据的结构,亦能进行开发。当然,为了这些好处,付出的代价便是金钱。

参考资料来源:百度百科-ETL

参考技术B 对于做过 BI 开发的朋友,ETL 并不陌生,只要涉及到数据源的数据抽取、数据的计算和处理过程的开发,都是 ETL,ETL 就这三个阶段,Extraction 抽取,Transformation 转换,Loading 加载。
从不同数据源抽取数据 EXTRACTION ,按照一定的数据处理规则对数据进行加工和格式转换 TRASFORMATION,最后处理完成的输出到目标数据表中也有可能是文件等等,这个就是 LOADING。
再通俗一点讲,ETL 的过程就跟大家日常做菜一样,需要到菜市场的各个摊位买好菜,把菜买回来要摘一下,洗一洗,切一切最后下锅把菜炒好端到饭桌上。菜市场的各个摊位就是数据源,做好的菜就是最终的输出结果,中间的所有过程像摘菜、洗菜、切菜、做菜就是转换。
在开发的时候,大部分时候会通过 ETL 工具去实现,比如常用的像 KETTLE、PENTAHO、IBM DATASTAGE、INFORNAICA、微软 SQL SERVER 里面的 SSIS 等等,在结合基本的 SQL 来实现整个 ETL 过程。
也有的是自己通过程序开发,然后控制一些数据处理脚本跑批,基本上就是程序加 SQL 实现。
哪种方式更好,也是需要看使用场景和开发人员对那种方式使用的更加得心应手。我看大部分软件程序开发人员出身的,碰到数据类项目会比较喜欢用程序控制跑批,这是程序思维的自然延续。纯 BI 开发人员大部分自然就选择成熟的 ETL 工具来开发,当然也有一上来就写程序脚本的,这类 BI 开发人员的师傅基本上是程序人员转过来的。
用程序的好处就是适配性强,可扩展性强,可以集成或拆解到到任何的程序处理过程中,有的时候使用程序开发效率更高。难就难在对维护人员有一定的技术要求,经验转移和可复制性不够。
用 ETL 工具的好处,第一是整个 ETL 的开发过程可视化了,特别是在数据处理流程的分层设计中可以很清晰的管理。第二是链接到不同数据源的时候,各种数据源、数据库的链接协议已经内置了,直接配置就可以,不需要再去写程序去实现。第三是各种转换控件基本上拖拉拽就可以使用,起到简化的代替一部分 SQL 的开发,不需要写代码去实现。第四是可以非常灵活的设计各种 ETL 调度规则,高度配置化,这个也不需要写代码实现。
所以在大多数通用的项目中,在项目上使用 ETL 标准组件开发会比较多一些。
ETL 从逻辑上一般可以分为两层,控制流和数据流,这也是很多 ETL 工具设计的理念,不同的 ETL 工具可能叫法不同。
控制流就是控制每一个数据流与数据流处理的先后流程,一个控制流可以包含多个数据流。比如在数据仓库开发过程中,第一层的处理是ODS层或者Staging 层的开发,第二层是 DIMENSION维度层的开发,后面几层就是DW 事实层、DM数据集市层的开发。通过ETL的调度管理就可以让这几层串联起来形成一个完整的数据处理流程。
数据流就是具体的从源数据到目标数据表的数据转换过程,所以也有 ETL 工具把数据流叫做转换。在数据流的开发设计过程中主要就是三个环节,目标数据表的链接,这两个直接通过 ETL 控件配置就可以了。中间转换的环节,这个时候就可能有很多的选择了,调 SQL 语句、存储过程,或者还是使用 ETL 控件来实现。
有的项目上习惯使用 ETL 控件来实现数据流中的转换,也有的项目要求不使用标准的转换组件使用存储过程来调用。也有的是因为数据仓库本身这个数据库不支持存储过程就只能通过标准的SQL来实现。
我们通常讲的BI数据架构师其实指的就是ETL的架构设计,这是整个BI项目中非常核心的一层技术实现,数据处理、数据清洗和建模都是在ETL中去实现。一个好的ETL架构设计可以同时支撑上百个包就是控制流,每一个控制流下可能又有上百个数据流的处理过程。之前写过一篇技术文章,大家可以搜索下关键字 BIWORK ETL 应该在网上还能找到到这篇文章。这种框架设计不仅仅是ETL框架架构上的设计,还有很深的ETL项目管理和规范性控制器思想,包括后期的运维,基于BI的BI分析,ETL的性能调优都会在这些框架中得到体现。因为大的BI项目可能同时需要几十人来开发ETL,框架的顶层设计就很重要。
参考技术C ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 参考技术D ETL,Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。

什么是提取/转换/加载 (ETL)?

【中文标题】什么是提取/转换/加载 (ETL)?【英文标题】:What is Extract/Transform/Load (ETL)? 【发布时间】:2011-03-24 11:55:29 【问题描述】:

我试过阅读Wikipedia article for "extract, transform, load",但这让我更加困惑......

谁能解释一下 ETL 是什么,以及它是如何实现的?

【问题讨论】:

【参考方案1】:

ETL 从一个系统中获取数据(提取),对其进行修改(转换)并将其加载到另一个系统中(加载)。

而且不一定按这个顺序。你可以电话,或ELT。不过可能不是LTE。 :-)

对于从一个系统获取数据并将其移动到另一个系统的任何进程来说,它都是一个包罗万象的名称。

【讨论】:

【参考方案2】:

ETL 通常用于数据仓库。它不是加载数据仓库的特定实现,它只是一个非常高级的算法,应该用于填充数据仓库。

提取从某个来源提取数据。 Transform 获取数据并对其进行操作,以便将其用于.. 加载到您的系统中。

【讨论】:

ETL 不仅适用于数据仓库,也不仅仅适用于加载数据仓库。如果你在外面创建一个集市,那也是一个 ETL 系统。 @coffeepac - 当然,但它最常用于数据仓库。 投反对票的人能给出理由吗?这个答案如何没用【参考方案3】:

提取意味着从一个或多个数据库中提取数据。 转换意味着更改数据,但您需要更改数据以适应您的业务需求。 加载意味着将其放入目标数据库中。

【讨论】:

数据库不必是源或目标。无组织的平面文件、网络数据流或任何一堆数据都可以是源。【参考方案4】:

我最喜欢的答案: https://***.com/questions/51198/what-etl-tool-do-you-use/67784#67784

帖子已删除,但仍位于: https://web.archive.org/web/20100914194931/https://***.com/questions/51198/what-etl-tool-do-you-use

from here

【讨论】:

链接的答案从***中删除太糟糕了。至少它引用的帖子仍然存在......从这里链接。 仍可通过web.archive.org/web/20100914194931/http://***.com/…获得。【参考方案5】:

ETL 是提取、转换、加载三个数据库功能的缩写,它们组合成一个工具,可以将数据从一个数据库中提取出来并放入另一个数据库中。 提取是从数据库中读取数据的过程。 转换是将提取的数据从以前的形式转换为需要的形式的过程,以便可以将其放入另一个数据库中。通过使用规则或查找表或通过将数据与其他数据组合来进行转换。 加载是将数据写入目标数据库的过程。 ETL 用于将数据从一个数据库迁移到另一个数据库,形成数据集市和数据仓库,以及将数据库从一种格式或类型转换为另一种格式或类型。

【讨论】:

以上是关于什么是数据ETL的主要内容,如果未能解决你的问题,请参考以下文章

大数据领域经常听到ETL,那么什么是ETL

实战总结理论之——ETL与数据仓库

什么算作ETL?

搞懂数据仓库:常用ETL工具方法

ETL构建数据仓库五步法

大数据面试常见问题——ETL部分