PySpark - 为 SQL Server 使用 Spark 连接器

Posted

技术标签:

【中文标题】PySpark - 为 SQL Server 使用 Spark 连接器【英文标题】:PySpark - Using Spark Connector for SQL Server 【发布时间】:2020-04-10 17:24:44 【问题描述】:

希望你们一切都好。

我们目前正在探索在 DataBricks 中使用 PySpark 加载 SQL Server 表的选项。我们有多种来源,包括文件和表格。我们使用 python 作为基础,因为它更容易与其他现有代码库链接。

问题 01:

建议我们使用 Spark 连接器连接到 SQL Server(本地和云)?

https://docs.microsoft.com/en-us/azure/sql-database/sql-database-spark-connector

上面来自 MS 的链接清楚地表明 Scala 是一个依赖项。是否可以仅将上述连接器与 Scala 一起使用?它也可以与 Python 一起使用吗?如果是这样,我们如何调用其中的驱动程序和方法。

问题02:

在 python 代码中包含/导入/访问库、来自 JAR 文件或其他 Maven 库的驱动程序的最佳方法是什么。在 python 中,我们通常有一个模块,我们从中导入所需的库。假设我们在 Databricks 中安装了几个使用 Maven 坐标和其他独立 JAR 的库,我们如何在 Python 脚本中访问它们。

我希望以上细节已经足够了。我提前感谢大家的所有帮助和建议。干杯...

【问题讨论】:

【参考方案1】:

看起来有人找到了解决方案,但没有 Databricks 上下文。请参阅以下 Stack Overflow 帖子:How to use azure-sqldb-spark connector in pyspark

与此同时,您能否对以下 UserVoice 功能请求进行投票和评论:Implement python bindings for azure-sqldb-spark connector,目前正在审核中。

对于当前支持的内容,请参阅 Alberto 对以下 Srack Overflow 帖子的回答:How to connect Azure SQL Database with Azure Databricks

【讨论】:

非常感谢您的回复。希望python实现很快就会出现。很高兴看到上个月的回复。关于其他链接,我从来没有让下推插入或合并查询对我有用。让我再试一次。再次感谢您的帮助。

以上是关于PySpark - 为 SQL Server 使用 Spark 连接器的主要内容,如果未能解决你的问题,请参考以下文章

使用 pyspark 对 SQL Server JDBC 使用 Windows 身份验证

即使使用 PySpark 存在表,如何写入 Microsoft SQL Server 表

将 pyspark 连接到 SQL Server 时出错

将 sql server jar 添加到 pyspark 的类路径后无法查询 hive

从 sql server 读取数据并在 PySpark 中使用特殊字符传递我的密码

Pyspark:使用 Python 从 Spark 2.4 连接到 MS SQL Server 2017 时没有合适的驱动程序错误