Databricks + ADF + ADLS2 + Hive = Azure Synapse
Posted
技术标签:
【中文标题】Databricks + ADF + ADLS2 + Hive = Azure Synapse【英文标题】: 【发布时间】:2021-12-24 19:30:13 【问题描述】:我没有使用 Azure Synapse 的经验,但我的理解是,这与 SQL DWH 中的 Databricks、ADF、ADLS2 和 Hive 相同,都在一个名称不同的工作区中。
我错了吗?
【问题讨论】:
【参考方案1】:是的,在许多情况下,Azure Synapse 和 Databricks 提供相同的大数据分析方法,但这些服务之间也几乎没有区别。
现在,随着 Synapse 中的新功能,我们看到了一些与 Databricks 中相似的功能(例如 Spark、Delta),这引发了 Synapse 与 Databricks 的比较以及何时使用哪个的问题。
是的,两者都有 Spark,但是……
数据块
内置了专有的数据处理引擎(Databricks Runtime) 在高度优化的 Apache Spark 版本上提供 50 倍 性能 已经支持 Spark 3.0 允许用户选择启用 GPU 的集群,并在标准和高并发集群模式之间进行选择突触
开源 Apache Spark(因此不包括 Databricks Runtime 的所有功能) 内置支持 .NET for Spark 应用程序是的,两者都有笔记本
突触
Nteract 笔记本
有共同创作的笔记本,但一个人需要在另一个人看到更改之前保存笔记本
没有自动版本控制
数据块
Databricks 笔记本
具有实时共同创作(两位作者实时看到更改)自动版本控制
是的,两者都可以访问数据湖中的数据
突触
创建 Synapse 时,您可以选择一个数据湖作为您的 主数据湖(可以直接从脚本和 笔记本)数据块
您需要先挂载数据湖,然后才能使用它是的,两者都利用 Delta
突触
Delta Lake 是开源的数据块
拥有基于开源但提供一些额外优化的 Databricks Delta不,它们不一样
突触
既有传统的 SQL 引擎(适合传统的 BI 开发人员)也有 Spark 引擎(适合数据科学家、分析师和工程师)
是数据仓库(即 Synapse Analytics)+ 接口工具(即 Synapse Studio)
数据块
不是数据仓库工具,而是基于 Spark 的笔记本工具 专注于 Spark、Delta Engine、MLflow 和 MLR不,它们提供的开发者体验不同
突触
目前仅通过 Synapse Studio(而非本地 IDE)为 Spark 开发提供开发者体验
Synapse Studio Notebooks 中尚未集成 Git
数据块
在 Databricks UI、Databricks Connect(即从 Visual Studio Code、Pycharm 等远程连接)和 Databricks 中的 Jupyter 和 RStudio UI 中提供开发人员体验检查When to use Synapse and when Databricks?。
【讨论】:
这是错误的:“使用前需要挂载数据湖” -> 可以直接从笔记本查询数据湖,只需正确设置Spark属性 这也是不正确的:“不是数据仓库工具,而是基于 Spark 的笔记本工具” - 请参阅面向 BI 开发人员的 Databricks SQL以上是关于Databricks + ADF + ADLS2 + Hive = Azure Synapse的主要内容,如果未能解决你的问题,请参考以下文章
使用 Databricks 和 ADF 展平复杂的 json
Azure Data PlatformETL工具(22)——Azure Databricks与ADF整合
Azure Data PlatformETL工具(22)——Azure Databricks与ADF整合