同时使用 SparkR 和 Sparklyr

Posted

技术标签:

【中文标题】同时使用 SparkR 和 Sparklyr【英文标题】:Using SparkR and Sparklyr simultaneously 【发布时间】:2017-03-27 10:27:03 【问题描述】:

据我了解,这两个包为 Apache Spark 提供了相似但大部分不同的包装函数。 Sparklyr 较新,但仍需要在功能范围内增长。因此,我认为目前需要同时使用这两个包来获得全部功能。

由于这两个包本质上都包含对 Scala 类的 Java 实例的引用,我猜应该可以并行使用这些包。但这真的可能吗?您的最佳做法是什么?

【问题讨论】:

【参考方案1】:

这两个包使用不同的机制,并不是为互操作性而设计的。它们的内部以不同的方式设计,并且不会以相同的方式暴露 JVM 后端。

虽然人们可以想到一些解决方案,允许与持久元存储进行部分数据共享(想到使用全局临时视图),但它的应用程序相当有限。

如果您需要两者,我建议您将管道分成多个步骤,并在这些步骤之间传递数据,使用持久存储。

【讨论】:

以上是关于同时使用 SparkR 和 Sparklyr的主要内容,如果未能解决你的问题,请参考以下文章

使用 SparkR 计算地理距离

SparkR filterRDD 和 flatMap 不工作

如何在SparkR中使用AND和OR编写逻辑列表达式?

使用SparkR的Sparklyr:麻烦解析函数参数

无法登录sparkR docker容器

转+修正在Windows和Rstudio下本地安装SparkR