Apache Spark (scala) + python/R 数据分析工作流程

Posted

技术标签:

【中文标题】Apache Spark (scala) + python/R 数据分析工作流程【英文标题】:Apache Spark (scala) + python/R work flow for data analysis 【发布时间】:2016-03-04 09:56:11 【问题描述】:

我想知道人们在用这个堆栈进行数据分析。我对 Spark Scala API 特别感兴趣,因为它似乎有更新的功能,而且对 Spark 来说更“自然”。

但是,一旦大数据被压缩和缩减,我不确定在数据可视化和探索方面的最佳做法是什么。

例如,我在大约 20 亿条记录上运行 Spark 作业,现在我有一个 Spark 数据框,其中包含大约 100k 条记录,其中一些结果我想在 python 或 R 中进行直方图、绘图和应用一些 ML .

在这两个世界之间实现握手的最佳方式是什么?将结果保存到文件? (如果是这样,最好的选择是什么,parquet、avro、json、csv?)将其保存到数据库中?

基本上我想知道其他人觉得使用类似堆栈最舒服的是什么。

【问题讨论】:

【参考方案1】:

在 Spark 中转换或处理数据后,您可以考虑以下方法来可视化数据。

Apache zeppelin 用于交互式数据分析。

另一个选项是将 Spark 作业输出的结果存储在 ElasticSearch 中,我们可以使用 Kibana 进行可视化。

【讨论】:

以上是关于Apache Spark (scala) + python/R 数据分析工作流程的主要内容,如果未能解决你的问题,请参考以下文章

Scala、Apache Spark编写的编译错误保存模型

Apache Spark Python 到 Scala 的翻译

Scala 错误:线程“主”org.apache.spark.SparkException 中的异常:任务不可序列化

在 Apache Spark (Scala) 上获取两个数据帧的差异

在apache spark scala中排序和排名?

使用 Scala 在 Apache Spark 中连接不同 RDD 的数据集