将大型数据框导出到 Power BI 可以使用的单个文件的最佳方式
Posted
技术标签:
【中文标题】将大型数据框导出到 Power BI 可以使用的单个文件的最佳方式【英文标题】:Best way to export a large dataframe to a single file that can be consumed by Power BI 【发布时间】:2019-04-29 07:04:57 【问题描述】:我正在 Azure Databricks 中处理大量输入文件。我的最终数据框有大约 9800 万行。
我需要将其从 Databricks 中导出,以便将其导入 Power BI 进行报告。
Power BI 目前似乎没有可以解释分区性质的连接器,如果我只是将数据帧写入例如CSV。使用合并或转换为 pandas 数据帧并导出为 CSV 非常慢,并且容易受到集群资源限制。
我尝试了以上两种方法都没有成功。
我还有哪些其他选项可以以 Power BI 可以理解的方式有效导出我的数据框?我不介意这是来自处理的 Databricks 端还是 Power Query 端。
【问题讨论】:
您好,您可以将数据框从数据块导出到 sql server 或 azure sql 数据库,然后从那里提取数据吗? 这似乎是一种冗长的做事方式。我希望有一些合乎逻辑的方法来做到这一点。烦人的事情是,从数据湖导入“大”数据的示例似乎总是以良好的有序文件夹结构显示它,在叶级只有一个文件——要么是不切实际的示例,要么是我错过了一个技巧。 也许有点营销“魔术”哈哈抱歉我从未使用过数据砖。只是想我会投入我的 .02 【参考方案1】:PowerBI 有一个现有的数据块连接器。我们获取 CSV 数据并将其转换为分区的 databricks 增量格式表。我们有数十亿条记录,PowerBI 能够很好地提取它。
确保按照此处的步骤将 PowerBI 连接到 databricks 集群: https://docs.databricks.com/user-guide/bi/power-bi.html#connect-power-bi-desktop-to-a-databricks-cluster
【讨论】:
以上是关于将大型数据框导出到 Power BI 可以使用的单个文件的最佳方式的主要内容,如果未能解决你的问题,请参考以下文章
如何将指数平滑模型预测值获取到 POWER BI/POWER Query 数据集?