Azure Data PlatformETL工具——使用Azure Data Factory数据流传输数据

Posted 發糞塗牆

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Azure Data PlatformETL工具——使用Azure Data Factory数据流传输数据相关的知识,希望对你有一定的参考价值。

本文属于【Azure Data Platform】系列。
接上文:【Azure Data Platform】ETL工具(4)——Azure Data Factory Debug 管道
本文介绍如何 ADF 的数据流传输数据。

前面的几篇文章主要集中在“复制数据”工具的使用上。

数据传输

本次演示把Azure SQL DB中的一个表的值计算后,再写入一个新表中。为此,先在管道中创建一个data flow:

新建一个数据流:

添加源:

这里新建一个新的源以便与前面的区分开:


新建链接服务以便ADF能够访问Azure SQL DB:


打开源,配置具体的源选项:

选择需要处理的表,可以从“预览数据”中检查是否连通:

在源选项中,可以定义全表操作,还是使用特定的SQL/存储过程来处理数据, 同时还可以定义批处理的大小及隔离级别。

在【优化】选项中, 还能对已分区的表进行额外的处理。

然后点击【检查】选项,查看源表的表定义:

然后点击图形化界面中右下角的【+】, 如图所示,配置一个数据处理操作,这里选择聚合。

按下图顺序选择需要处理的列,在最后一步【打开表达式生成器】中我们选择需要处理的列和操作:


选择ListPrice列,然后使用countAll函数进行计算:

接下来再加一个流程【接收器】,意味着目标源,为了方便期间,这里选择同一个Azure SQL DB的库,只是使用不同的表:


为方便期间,这里先创建好目标表:

在目的地中输入这个表并查看数据,可见目前表是空的。

当所有东西都配置完毕之后,发布这个管道:

发布完毕后,使用调试功能,可以手动触发管道的执行。 从下图中可以看到已经有了计算结果:

但是前面都还是调试模式,要实际运行,需要跳回Data Flow所在的管道:

然后点击调试,正如前文提到,调试按钮会实际执行管道,从而数据会真正计算并写入目标:

在数据表中查看可以看到已经实际运行了:

总结

目前为止,我们实现了用数据流进行数据传输,下一文我们演示一下如何执行SSIS包。在本次演示过程,本人学到了一个“新技能”, 就是单纯在Data flow上调试,数据是不会真正写到目标的,需要在所在的管道上执行才可以。

以上是关于Azure Data PlatformETL工具——使用Azure Data Factory数据流传输数据的主要内容,如果未能解决你的问题,请参考以下文章

Azure Data PlatformETL工具(19)——Azure Databricks

Azure Data PlatformETL工具(20)——创建Azure Databricks

Azure Data PlatformETL工具(20)——创建Azure Databricks

Azure Data PlatformETL工具——重新认识Azure Data Factory

Azure Data PlatformETL工具(11)——ADF 数据流

Azure Data PlatformETL工具——使用Azure Data Factory数据流传输数据