Databricks:将dbfs:/ FileStore文件下载到我的本地计算机?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Databricks:将dbfs:/ FileStore文件下载到我的本地计算机?相关的知识,希望对你有一定的参考价值。

我使用saveAsTextFile()将Spark作业的结果存储在dbfs:/ FileStore / my_result文件夹中。

我可以使用Web浏览器访问不同的“part-xxxxx”文件,但我想自动执行将所有文件下载到本地计算机的过程。

我曾尝试使用cURL,但我找不到RestAPI命令来下载dbfs:/ FileStore文件。

问题:如何将dbfs:/ FileStore文件下载到本地计算机?

我正在使用Databricks Community Edition在大学教授大数据分析的本科模块。我在本地计算机上安装了Windows 7。我已经检查了cURL和_netrc文件是否已正确安装和配置,因为我设法成功运行RestAPI提供的一些命令。

非常感谢您的帮助!最好的问候,纳乔

答案

将FileStore文件下载到本地计算机有几个选项。

更简单的选择:

  • 安装Databricks CLI,使用Databricks凭据配置它,并使用CLI的dbfs cp命令。例如:dbfs cp dbfs:/FileStore/test.txt ./test.txt。如果要下载整个文件夹,可以使用dbfs cp -r
  • 从登录Databricks的浏览器中,导航到https://<YOUR_DATABRICKS_INSTANCE_NAME>.cloud.databricks.com/files/。如果您使用的是Databricks Community Edition,则可能需要使用稍微不同的路径。这个下载方法在FileStore docs中有更详细的描述。

高级选项:

  • 使用DBFS REST API。您可以使用read API调用访问文件内容。要下载大文件,您可能需要发出多个read调用来访问完整文件的块。

以上是关于Databricks:将dbfs:/ FileStore文件下载到我的本地计算机?的主要内容,如果未能解决你的问题,请参考以下文章

Azure Databricks - 导出和导入 DBFS 文件系统

将数据表从 Databricks dbfs 导出到 azure sql 数据库

如何使用 dbfs 之外的 Python 文件创建 Databricks 作业?

无法在 databricks 运行时版本 7 中使用 shell 命令访问 /dbfs/FileStore

带有 python 的 Azure Databricks dbfs

尝试访问 Azure Databricks 中的 Azure DBFS 文件系统时出现挂载错误