Apache Spark (scala) + python/R 数据分析工作流程

Posted 2023-04-18

技术标签:

【中文标题】Apache Spark (scala) + python/R 数据分析工作流程【英文标题】：Apache Spark (scala) + python/R work flow for data analysis 【发布时间】：2016-03-04 09:56:11 【问题描述】：

我想知道人们在用这个堆栈进行数据分析。我对 Spark Scala API 特别感兴趣，因为它似乎有更新的功能，而且对 Spark 来说更“自然”。

但是，一旦大数据被压缩和缩减，我不确定在数据可视化和探索方面的最佳做法是什么。

例如，我在大约 20 亿条记录上运行 Spark 作业，现在我有一个 Spark 数据框，其中包含大约 100k 条记录，其中一些结果我想在 python 或 R 中进行直方图、绘图和应用一些 ML .

在这两个世界之间实现握手的最佳方式是什么？将结果保存到文件？（如果是这样，最好的选择是什么，parquet、avro、json、csv？）将其保存到数据库中？

基本上我想知道其他人觉得使用类似堆栈最舒服的是什么。

【问题讨论】：

【参考方案1】：

在 Spark 中转换或处理数据后，您可以考虑以下方法来可视化数据。

Apache zeppelin 用于交互式数据分析。

另一个选项是将 Spark 作业输出的结果存储在 ElasticSearch 中，我们可以使用 Kibana 进行可视化。

【讨论】：

以上是关于Apache Spark (scala) + python/R 数据分析工作流程的主要内容，如果未能解决你的问题，请参考以下文章

Scala、Apache Spark编写的编译错误保存模型

Apache Spark Python 到 Scala 的翻译

Scala 错误：线程“主”org.apache.spark.SparkException 中的异常：任务不可序列化

在 Apache Spark (Scala) 上获取两个数据帧的差异

在apache spark scala中排序和排名？

使用 Scala 在 Apache Spark 中连接不同 RDD 的数据集