Azure Data PlatformETL工具——重新认识Azure Data Factory
Posted 發糞塗牆
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Azure Data PlatformETL工具——重新认识Azure Data Factory相关的知识,希望对你有一定的参考价值。
本文属于【Azure Data Platform】系列。
接上文:【Azure Data Platform】ETL工具(5)——使用Azure Data Factory数据流转换数据
前面开篇第一章主要以初学者的角度去看ADF,本文以已经会基础操作的角度去重新介绍一下ADF,并且介绍主要组件之间的关系。
ADF 极简介绍
ADF 是什么?简单来说就是个图形化为主的创建自动化管道(pipeline)的服务。
那它能做什么?看下面的图:
说白了,ADF主要做两件事(不仅仅这两件):复制数据(Copy data)和转换数据(transform data)。
Copy Data:
复制数据是ADF的核心功能。可以从超过90中SaaS 应用, 本地数据源和云数据源中获取数据。 而且复制过程还能对数据的格式进行操作。
Transform Data:
在复制数据过程,还能进行数据转换,过去这些操作通常使用数据库的SQL/存储过程, Hadoop等工具来完成。 从2019年开始,引入了一个叫数据流(Data Flows)的功能来实现数据转换。 至此,ADF可以完全实现这个完整的ETL过程。
ADF入口
使用Azure,我们可以很方便地从搜索栏中直接定位所需的资源,比如ADF, 我们可以使用英文版的“ADF” 这三个字或者中文版的“数据工厂”来搜索。然后进入资源:
然后新建一个新的实例或者使用现成的实例:
在数据工厂的实例中, 点击红框的“打开 Azure 数据工厂工作室”即可进行开发和管理工作:
如果你平时只用ADF的话,有个快速进入的网址:adf.azure.com
ADF创作
接下来的界面就是我们经常要用到的,可以在下图的新建中创建对应的功能, 也可以选择最左边的【创作】选项
创作界面,实际上就是ADF的开发界面:
监视器
监视器(Monitor)可以监控我们的ADF运行情况,设置警告等。
管理
在这里,可以进行连接,源代码管理,创作,安全性的管理:
ADF 菜单
现在看看界面的右上角, 第一个是更新信息:
切换数据工厂,在多项目并行使用的情况下是有用的:
其他的几个选项是常见的,就不累赘了。
ADF组件
创作页
在创作页可以看到下图的内容,比如我已经在这个工厂里面创建了4个管道,5个数据集,1个数据流。
管道(Pipeline)
管道是你要在ADF中运行或执行的“东西”,类似于SSIS中的包。在这里你可以创建你的工作流(做什么,以什么顺序等),比如前面例子中的复制数据然后转换。 如下图打开新建管道之后,可以看到设计界面:
里面有很多【活动】可选:
活动:是管道中的独立组件,每个活动完成不同的任务。可以选择串行或者并行执行这些活动。当选中某个拉进去设计框中的活动时,图标会变蓝(没选中的则为灰色),下方就会出现该活动的属性:
数据流
数据流是特定类型的活动,用于数据转换。操作过程在上一文中已经演示过。
Power Query
这部分通常于Power BI有关系,有机会再演示。
数据集
数据集有点类似于数据库的视图,在复制和转换数据过程,定义了一定的格式和数据输入输出的位置。在创建数据集时,还要指定如何连接到这个数据集,比如使用链接的服务(linked service)。
管理页
在管理页仲可以看到下面的这些内容,这里提一下常见的【链接的服务】(linked services) 和【触发器】(triggers):
链接的服务(Linked Services)
链接服务定义了与数据存储或计算的连接信息。类似连接字符串,也包含了身份验证方面。后面会详细描述每个部分。
触发器(Triggers)
触发器在ADF里面就类似个定时器,定义了什么时候触发管道。这个后面也会具体演示和说明。
总结
借用网上的一张图来做个总结:
触发器(Triggers)执行管道(Pipelines),管道包含了一系列的活动(activities),通常是复制数据(Copy Data)和转换数据(Transform Data)。这些活动需要定义好一定的格式(Datasets),并定义好源和目标的连接方式(Linked Services)
以上是关于Azure Data PlatformETL工具——重新认识Azure Data Factory的主要内容,如果未能解决你的问题,请参考以下文章
Azure Data PlatformETL工具(19)——Azure Databricks
Azure Data PlatformETL工具(20)——创建Azure Databricks
Azure Data PlatformETL工具(20)——创建Azure Databricks
Azure Data PlatformETL工具——重新认识Azure Data Factory