是否可以从 flink 作业中触发 spark 作业并从中获取数据?

Posted

技术标签:

【中文标题】是否可以从 flink 作业中触发 spark 作业并从中获取数据?【英文标题】:Is it possible to trigger a spark job from the flink job and get the data from it? 【发布时间】:2017-07-11 10:31:17 【问题描述】:

我正在使用 flink 从 Azure 数据湖中读取数据。但是 flink 找不到 Azure 数据湖文件系统。我已经实现了 spark 来读取 Azure Data Lake 文件系统文件。

所以我正在尝试从 flink 触发 spark 以从 Azure Data Lake 读取数据并执行一些逻辑并将列表返回给 flink。那么 flink 可以使用这些数据吗?

是否可以从 flink 触发 spark 作业?或者如何配置 flink 以了解 Azure Data Lake 文件系统。有人可以指导我吗?

【问题讨论】:

嗨 Dhinesh,难道不能使用同样的机制让您通过 Flink 从 Spark 从 ADLS 读取数据吗? medium.com/azure-data-lake/… @Amit Kulkarni。感谢您的指导,现在我已经配置了 flink 来了解 Azure datalake 文件系统。 太棒了。在这种情况下,请将以下标记为答案。 【参考方案1】:

让这个场景工作的正确方法是直接从 ADLS 读取数据。通过触发另一种机制(例如 Spark)来做到这一点很复杂。

这个 SO 问题包含这样做的信息:how to configure flink to understand the Azure Data Lake file system?

【讨论】:

以上是关于是否可以从 flink 作业中触发 spark 作业并从中获取数据?的主要内容,如果未能解决你的问题,请参考以下文章

没有监控的流处理作业与茫茫大海中的裸泳无异 - 附 flink 与 spark 作业监控脚本实现

替代递归运行Spark-submit作业

是否可以在 Flink 的 Job Manager 中运行一个简单的作业?

Storm,Spark,Flink对比

Spark[四]——Spark并行度

如何将 SPARK/Flink 流数据处理创建为微服务(REST API)