Spark 与 MSSQL - 连接对象和 JDBCRDD
Posted
技术标签:
【中文标题】Spark 与 MSSQL - 连接对象和 JDBCRDD【英文标题】:Spark with MSSQL - Connection object and JDBCRDD 【发布时间】:2014-11-14 10:27:03 【问题描述】:我想要一个应用程序 -
-
从 MSSQL Server 读取数据
将此数据放入 spark 中
使用 RDD 执行计算
使用 JDBCRDD 将数据写入另一个数据库
我的问题是没有。 4关于使用JDBCRDD将数据写入另一个数据库,在创建JDBCRDD时我们指定连接参数。
当我们创建 JDBCRDD 并且它分布在集群节点上时,连接对象是如何分布的? spark setup中是为每个partition/node创建分布式还是多个连接对象?
【问题讨论】:
所以你问题的第一段与我们完全无关? 【参考方案1】:如果您传递一个提供连接对象的函数或工厂,那么它将是每个分区一个。 如果您只使用一个与 JDBCRDD 的连接,那么它将为所有分区提供一个共享连接。
来自 Spark here 的相关代码
【讨论】:
以上是关于Spark 与 MSSQL - 连接对象和 JDBCRDD的主要内容,如果未能解决你的问题,请参考以下文章
localhost xampp 与 codeigniter 的连接使用 mssql 数据库错误作为无效的对象名称'ci_sessions'