通过 Azure Data Lake 和 Power BI 进行数据分析(加入 mongoDB 和 SQL 数据)

Posted

技术标签:

【中文标题】通过 Azure Data Lake 和 Power BI 进行数据分析(加入 mongoDB 和 SQL 数据)【英文标题】:Data analytics (join mongoDB and SQL data) through Azure Data Lake and power BI 【发布时间】:2020-09-15 03:49:09 【问题描述】:

我们有一个使用 mongoDB(在 VM 上运行)和 Azure SQL dbs 托管在 Azure 上的应用程序。这个想法是建立一个基本的数据分析管道来“连接”这两个数据库之间的数据,并使用 Power BI 直观地显示相同的数据。

例如,我们在 SQL 中有一个具有唯一“id”的“用户”表和一个具有“id”引用的“数据”表以及 SQL 中具有“id”引用的其他表。因此,我们希望根据用户分析数据的内容,并可能根据需要将其与其他表进一步连接。

Azure 数据湖 + Power BI 是否足以实现此案例?或者我们需要 azure 数据分析或 azure synapse?

【问题讨论】:

【参考方案1】:

Azure Data Lake (ADL) 和 Power BI 本身无法构建管道,ADL 只是一个存储区域,而 Power BI 是一个非常轻量级的 ETL 工具,受功能和容量的限制。

正如您提到的 Azure Synapse,强烈建议您使用更好的计算能力。这将能够有一个已定义的管道来协调将数据移动到数据湖中,然后进行处理以转换数据。

Power BI 本身无法做到这一点,因为如果运行 Pro,您仍然会受到 1GB 的数据流和数据集大小的限制。 Azure Synapse 确实包含 Azure 数据工厂管道、Apache Spark 和 Azure SQL 数据仓库,因此您可以在 Spark 和 SQL 之间选择数据转换步骤,因为两者都将连接到数据湖。

注意:Azure 数据湖分析 (ADLA)(和 USQL)不是 MS 的主要关注点,也从未广泛使用。 Azure Databricks 和带有 Spark 的 Azure Synapse 已在 MS 的所有现代数据管道和体系结构示例中取代了 ADLA。

【讨论】:

感谢乔恩的见解。但由于我的用例是一个较轻的分析案例,因此我避免使用用于大数据分析的 Azure Synapse。今天的需求是简单地加入 SQL DB 和 mongo DB 数据以获得对一些事情的洞察力,然后将其直观地呈现给一些仪表板。我也在考虑以下流程:Azure SQL/Mongo DB(以 csv 格式导出)[Sources] --> Data factory(数据流连接)-> Data Lake [target to store] --> Azure Analysis service [semantics ] --> Power BI。如果有更简单的方法,它是最优选的。谢谢!

以上是关于通过 Azure Data Lake 和 Power BI 进行数据分析(加入 mongoDB 和 SQL 数据)的主要内容,如果未能解决你的问题,请参考以下文章

Azure Databricks 通过服务主体访问 Azure Data Lake Storage Gen2

搜索存储在 Azure Data Lake 中的数据

Azure Data PlatformAzure Data Lake——简介

Azure Data PlatformAzure Data Lake——简介

Azure Data PlatformAzure Data Lake——简介

使用 Azure 数据工厂 (ADF) 数据流 (DF) 从/向 Azure Data Lake Store gen1 发送和接收数据