如何使用 spark R 在 Blob azure 中列出文件

Posted

技术标签:

【中文标题】如何使用 spark R 在 Blob azure 中列出文件【英文标题】:How to list files in Blob azure using spark R 【发布时间】:2018-12-05 05:56:45 【问题描述】:

我在带有基于 Azure blob 存储的 HDi 集群的 Rstudio 服务器上使用 SparkR。我正在尝试列出 Blob 容器中包含的文件。 我尝试了:list.files(pattern = ".*.csv"),就像我们在 R 中所做的那样,但它没有向我们显示任何内容,并且出现了错误。

有谁知道如何从 R 列出 Blob 容器中的文件?

【问题讨论】:

你是怎么做到的? AzureBlob 上的 SparkR 我在 Azure 上使用 RStudio Server 【参考方案1】:

列表文件函数中有递归标志

files <- list.files(path = "parent-folder", pattern = "\\.csv$", recursive = TRUE)

设置path 参数可能更安全,以防脚本以/ 或其他方式运行(有时R Studio 在意外路径中运行脚本)。

【讨论】:

它是否也适用于部署在 blob 存储上的 azure 集群上的 rstudio 服务器上的 sparkR? 我用 R studio 测试过。它应该是跨平台通用的。集群机器需要共享文件系统才能正常工作。 我们试过了,遗憾的是它不能在使用 blob 作为存储部署的 HDI 集群上与 Rstudio 一起使用。

以上是关于如何使用 spark R 在 Blob azure 中列出文件的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 SAS 读取 Azure databricks 中的 blob

如何向 Azure 存储 Blob 上传添加身份验证

当 blob 更改时触发 Azure 数据块

在 Azure 门户中上传 Blob 时如何获取发件人 IP

使用 Flutter (iOS/Android) 将图像上传到 Azure blob

我们如何使用代理和 NodeJS 从 azure 存储下载 blob?