如何使用 Azure databricks 通过 ADLS gen 2 中的多个工作表读取和写入 excel 数据
Posted
技术标签:
【中文标题】如何使用 Azure databricks 通过 ADLS gen 2 中的多个工作表读取和写入 excel 数据【英文标题】:How to use Azure databricks to read and write excel data with multiple sheets from ADLS gen 2 【发布时间】:2021-10-27 17:19:29 【问题描述】:我想使用 pyspark 在 Azure 数据块中实现以下逻辑。 我有一个下面的文件,里面有多张纸。该文件存在于 adls gen 2 上。 我想将所有工作表的数据读入不同的文件,并将文件写入 adls gen 2 本身的某个位置。
注意:所有工作表都具有相同的架构(ID、名称)
我的最终输出文件应该包含所有工作表中的数据。我还需要创建一个额外的列来存储 sheetName 信息
【问题讨论】:
【参考方案1】:你可以使用以下逻辑
使用 Pandas 读取同一工作簿的多个工作表link 将 Pandas 中的多个数据框合并为单个数据框link 将 Panda 数据帧转换为 pyspark 数据帧 .link 应用您要实现的业务逻辑。【讨论】:
以上是关于如何使用 Azure databricks 通过 ADLS gen 2 中的多个工作表读取和写入 excel 数据的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Python 中从 Azure Databricks 插入 Azure SQL 数据库
Azure Data PlatformETL工具(21)——Azure Databricks使用——访问Azure Blob
Azure Data PlatformETL工具(21)——Azure Databricks使用——访问Azure Blob
使用 azure databricks 读取 azure databricks 日志 json 文件