使用 pyspark 在 azure synapse studio 中获取文件的完整路径

Posted 2023-03-25

技术标签:

【中文标题】使用 pyspark 在 azure synapse studio 中获取文件的完整路径【英文标题】：Get the full path of a file in azure synapse studio using pyspark 【发布时间】：2021-12-03 16:13:50 【问题描述】：

我需要从我的存储帐户处理一个 pdf 文件。在本地环境中，我们用来获取文件'C:\path\file1.pdf'的路径。但是如何在 azure synapse studio pyspark(python) 中访问 Azure 存储帐户中的数据？

【问题讨论】：

请提供足够的代码，以便其他人更好地理解或重现问题。 【参考方案1】：

手动方法：如果要手动获取存储帐户的完整路径。

对于 ADLS GEN2 帐户：'abfss://<FileSystemName>@<StorageName>.dfs.core.windows.net/FilePath/FileName/' 对于 Azure Blob 帐户：'wasbs://<ContainerName>@<StorageName>.blob.core.windows.net/FilePath/FileName/'

自动方法：以下是使用 Pyspark 在 Azure Synapse Studio 中获取文件完整路径的步骤。

您可以创建链接服务以连接到外部数据 (Azure Blob Storage/Gen1/Gen2)。

第 1 步：您可以分析工作区默认 ADLS Gen2 帐户中的数据，也可以通过“管理”将 ADLS Gen2 或 Blob 存储帐户链接到工作区 > "链接服务" > "新"

第 2 步：创建连接后，该连接的基础数据将可用于数据中心中的分析或集成中心中的管道活动。

Step3：现在您已经成功连接 Azure Data Lake Gen2，无需通过任何路径。

参考：Azure Synapse Analytics - Analyze data in a storage account

【讨论】：

以上是关于使用 pyspark 在 azure synapse studio 中获取文件的完整路径的主要内容，如果未能解决你的问题，请参考以下文章

如何使用 Pyspark 提取 Azure Application Insights 事件？

PySpark 缺少列名错误，Azure Synapse 分析笔记本中的数字列名

无法从 databricks pyspark 工作人员写入 Azure Sql DataWarehouse

如何使用 Azure 存储目录作为流数据源执行 PySpark Stream

如何从 Databrick/PySpark 覆盖/更新 Azure Cosmos DB 中的集合

使用 PySpark JDBC 将数据帧写入 Azure SQL 数据库时性能下降