Databricks:Data Lake Storage Gen 2 的挂载和直接访问之间的区别

Posted

技术标签:

【中文标题】Databricks:Data Lake Storage Gen 2 的挂载和直接访问之间的区别【英文标题】:Databricks : difference between mount and direct access of Data Lake Storage Gen 2 【发布时间】:2019-10-02 11:44:08 【问题描述】:

使用服务主体在 Databricks 上安装 Azure Data Lake Store Gen2 和使用 SAS 密钥直接访问有什么区别?

我想知道数据传输、访问安全性方面的区别

谢谢

【问题讨论】:

【参考方案1】:

如果您挂载存储,所有集群上的所有用户都可以访问。

如果您不使用服务主体或 SAS 在会话中直接挂载和连接(顺便说一句,我认为官方不支持 SAS 密钥),则该会话中的用户必须有权访问凭据才能创建连接。

服务主体也可以在湖中应用低级权限,例如限制到某些文件夹。

请注意,使用 ADLS Gen2,您现在还可以选择传递用户凭据:https://docs.azuredatabricks.net/spark/latest/data-sources/azure/adls-passthrough.html

我不知道任何性能差异。

【讨论】:

以上是关于Databricks:Data Lake Storage Gen 2 的挂载和直接访问之间的区别的主要内容,如果未能解决你的问题,请参考以下文章

什么技术可以让我为我的 Data Lake 获得 Databricks 风格的界面,但在本地?

使用 Databricks 中的原始 SQL 直接查询存储在 Azure Data Lake 中的 avro 数据文件

Azure Databricks 通过服务主体访问 Azure Data Lake Storage Gen2

使用 Azure EventHubs Capture 生成的 Azure Data Lake Gen1 中的 Databricks 读取 avro 数据失败

Azure Databricks - 从 Gen2 Data Lake Storage 运行 Spark Jar

使用 SSMS 从 Delta Lake Databricks 进行突触查询