Apache Spark (scala) + python/R 数据分析工作流程
Posted
技术标签:
【中文标题】Apache Spark (scala) + python/R 数据分析工作流程【英文标题】:Apache Spark (scala) + python/R work flow for data analysis 【发布时间】:2016-03-04 09:56:11 【问题描述】:我想知道人们在用这个堆栈进行数据分析。我对 Spark Scala API 特别感兴趣,因为它似乎有更新的功能,而且对 Spark 来说更“自然”。
但是,一旦大数据被压缩和缩减,我不确定在数据可视化和探索方面的最佳做法是什么。
例如,我在大约 20 亿条记录上运行 Spark 作业,现在我有一个 Spark 数据框,其中包含大约 100k 条记录,其中一些结果我想在 python 或 R 中进行直方图、绘图和应用一些 ML .
在这两个世界之间实现握手的最佳方式是什么?将结果保存到文件? (如果是这样,最好的选择是什么,parquet、avro、json、csv?)将其保存到数据库中?
基本上我想知道其他人觉得使用类似堆栈最舒服的是什么。
【问题讨论】:
【参考方案1】:在 Spark 中转换或处理数据后,您可以考虑以下方法来可视化数据。
Apache zeppelin 用于交互式数据分析。
另一个选项是将 Spark 作业输出的结果存储在 ElasticSearch 中,我们可以使用 Kibana 进行可视化。
【讨论】:
以上是关于Apache Spark (scala) + python/R 数据分析工作流程的主要内容,如果未能解决你的问题,请参考以下文章
Apache Spark Python 到 Scala 的翻译
Scala 错误:线程“主”org.apache.spark.SparkException 中的异常:任务不可序列化