Azure Data PlatformETL工具——重新认识Azure Data Factory

Posted 發糞塗牆

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Azure Data PlatformETL工具——重新认识Azure Data Factory相关的知识,希望对你有一定的参考价值。

本文属于【Azure Data Platform】系列。
接上文:【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据
前面开篇第一章主要以初学者的角度去看ADF,本文以已经会基础操作的角度去重新介绍一下ADF,并且介绍主要组件之间的关系。

ADF 极简介绍

ADF 是什么?简单来说就是个图形化为主的创建自动化管道(pipeline)的服务。

那它能做什么?看下面的图:

说白了,ADF主要做两件事(不仅仅这两件):复制数据(Copy data)和转换数据(transform data)。

Copy Data:

复制数据是ADF的核心功能。可以从超过90中SaaS 应用, 本地数据源和云数据源中获取数据。 而且复制过程还能对数据的格式进行操作。

Transform Data:

在复制数据过程,还能进行数据转换,过去这些操作通常使用数据库的SQL/存储过程, Hadoop等工具来完成。 从2019年开始,引入了一个叫数据流(Data Flows)的功能来实现数据转换。 至此,ADF可以完全实现这个完整的ETL过程。

ADF入口

使用Azure,我们可以很方便地从搜索栏中直接定位所需的资源,比如ADF, 我们可以使用英文版的“ADF” 这三个字或者中文版的“数据工厂”来搜索。然后进入资源:

然后新建一个新的实例或者使用现成的实例:


在数据工厂的实例中, 点击红框的“打开 Azure 数据工厂工作室”即可进行开发和管理工作:

如果你平时只用ADF的话,有个快速进入的网址:adf.azure.com

ADF创作

接下来的界面就是我们经常要用到的,可以在下图的新建中创建对应的功能, 也可以选择最左边的【创作】选项


创作界面,实际上就是ADF的开发界面:

监视器

监视器(Monitor)可以监控我们的ADF运行情况,设置警告等。

管理

在这里,可以进行连接,源代码管理,创作,安全性的管理:

ADF 菜单

现在看看界面的右上角, 第一个是更新信息:

切换数据工厂,在多项目并行使用的情况下是有用的:

其他的几个选项是常见的,就不累赘了。

ADF组件

创作页

在创作页可以看到下图的内容,比如我已经在这个工厂里面创建了4个管道,5个数据集,1个数据流。

管道(Pipeline)

管道是你要在ADF中运行或执行的“东西”,类似于SSIS中的包。在这里你可以创建你的工作流(做什么,以什么顺序等),比如前面例子中的复制数据然后转换。 如下图打开新建管道之后,可以看到设计界面:

里面有很多【活动】可选:

活动:是管道中的独立组件,每个活动完成不同的任务。可以选择串行或者并行执行这些活动。当选中某个拉进去设计框中的活动时,图标会变蓝(没选中的则为灰色),下方就会出现该活动的属性:

数据流

数据流是特定类型的活动,用于数据转换。操作过程在上一文中已经演示过。

Power Query

这部分通常于Power BI有关系,有机会再演示。

数据集

数据集有点类似于数据库的视图,在复制和转换数据过程,定义了一定的格式和数据输入输出的位置。在创建数据集时,还要指定如何连接到这个数据集,比如使用链接的服务(linked service)。

管理页

在管理页仲可以看到下面的这些内容,这里提一下常见的【链接的服务】(linked services) 和【触发器】(triggers):

链接的服务(Linked Services)

链接服务定义了与数据存储或计算的连接信息。类似连接字符串,也包含了身份验证方面。后面会详细描述每个部分。

触发器(Triggers)

触发器在ADF里面就类似个定时器,定义了什么时候触发管道。这个后面也会具体演示和说明。

总结

借用网上的一张图来做个总结:

触发器(Triggers)执行管道(Pipelines),管道包含了一系列的活动(activities),通常是复制数据(Copy Data)和转换数据(Transform Data)。这些活动需要定义好一定的格式(Datasets),并定义好源和目标的连接方式(Linked Services)

以上是关于Azure Data PlatformETL工具——重新认识Azure Data Factory的主要内容,如果未能解决你的问题,请参考以下文章

Azure Data PlatformETL工具(19)——Azure Databricks

Azure Data PlatformETL工具(20)——创建Azure Databricks

Azure Data PlatformETL工具(20)——创建Azure Databricks

Azure Data PlatformETL工具——重新认识Azure Data Factory

Azure Data PlatformETL工具(11)——ADF 数据流

Azure Data PlatformETL工具——使用Azure Data Factory数据流传输数据