如何直接在 Azure Blob 存储上存储火花作业(结构化流)的检查点?

Posted

技术标签:

【中文标题】如何直接在 Azure Blob 存储上存储火花作业(结构化流)的检查点?【英文标题】:How to store checkpoints of a spark job (Structured Streaming) directly on Azure Blob Storage? 【发布时间】:2021-08-15 01:12:42 【问题描述】:

用例:我们希望将检查点数据保留在 Azure Blob 而不是本地文件系统上以分析少量指标。

虽然以下帖子中给出的解决方法适用于本地文件系统上的检查点。扩展以下连接到 Azure Blob 的方法不起作用。 (spark streamingcontext loaded from checkpoint has no hadoopConf settings)

【问题讨论】:

【参考方案1】:

您需要在 SparkSession 的 SQLContext 上设置 Azure FS 详细信息。

val azureUrl = "abfs://XXXX.dfs.core.windows.net"
sqlContext.setConf("fs.defaultFS", azureUrl)

当然,如果需要,可以使用 sqlContext.setConf 设置其他配置,以支持您使用 Azure Blob 的方式(例如身份验证方法) - 请参阅各种密钥 here。 为此,您需要 hadoop-azure 库。

Spark Structured Streaming 将使用它来写入和读取检查点。

【讨论】:

【参考方案2】:

https://docs.microsoft.com/en-us/azure/databricks/spark/latest/structured-streaming/production

如果您使用 Azure Databricks 作业,他们可以选择检查点到 DBFS

streamingDataFrame.writeStream
  .format("parquet")
  .option("path", "dbfs://outputPath/")
  .option("checkpointLocation", "dbfs://checkpointPath")
  .start()

【讨论】:

以上是关于如何直接在 Azure Blob 存储上存储火花作业(结构化流)的检查点?的主要内容,如果未能解决你的问题,请参考以下文章

如何将 Azure VM 磁盘直接上传到 Blob 存储?

Azure Blob - 直接存储到存档层

Azure Blob 存储 - 从上传控制 .NET 上传

如何检查图像是不是在 Azure Blob 存储上发布?

直接从前端将数据上传到 Azure Blob 存储时的安全问题

如何备份 Azure 表和 Blob