将 DataBricks 连接到 Azure Blob 存储

Posted

技术标签:

【中文标题】将 DataBricks 连接到 Azure Blob 存储【英文标题】:Connecting DataBricks to Azure Blob Storage 【发布时间】:2021-07-11 12:12:14 【问题描述】:

我正在尝试将 Azure Blob 存储容器装载到 DataBricks 实例,虽然装载确实有效,但它似乎没有使用存储容器。

这是我用来创建挂载的代码...

storageAccountName = 'x'
blobContainerName = 'files'
storageAccountAccessKey = 'x'

dbutils.fs.mount(
  source = f'wasbs://blobContainerName@storageAccountName.blob.core.windows.net',
  mount_point = '/mnt/files/',
  extra_configs = 'fs.azure.account.key.' + storageAccountName + '.blob.core.windows.net': storageAccountAccessKey
)

安装似乎成功了。

然后我将文件下载到安装位置...

%sh

wget https://www.stats.govt.nz/assets/Uploads/Annual-enterprise-survey/Annual-enterprise-survey-2019-financial-year-provisional/Download-data/annual-enterprise-survey-2019-financial-year-provisional-csv.csv -P /mnt/files/

然后我列出挂载位置中的文件

%sh

ls /mnt/samplefiles/

这会显示下载的文件 (annual-enterprise-survey-2019-financial-year-provisional-csv.csv),但不会显示存储帐户中已经存在的文件,下载的文件也不会出现在存储帐户。

我在这里错过了什么?

【问题讨论】:

【参考方案1】:

我需要将 /dbfs/ 添加到安装位置。

例如...

ls /dbfs/mnt/samplefiles

【讨论】:

以上是关于将 DataBricks 连接到 Azure Blob 存储的主要内容,如果未能解决你的问题,请参考以下文章

无法使用 jdbc 和 spark 连接器从 databricks 集群连接到 Azure 数据库 for MySQL 服务器

使用服务主体从 DataBricks 连接到 Synapse

是否可以通过 azure databricks 连接到无服务器 sql 池?

如何使用 python 从 azure databricks notebook 连接到本地 Windows 服务器?

使用 Databricks 连接到 AWS Postgres

在 Azure Databricks 上设置 PostgreSQL 驱动程序