保存/导出 Spark SQL Zeppelin 查询的结果
Posted
技术标签:
【中文标题】保存/导出 Spark SQL Zeppelin 查询的结果【英文标题】:Saving/Exporting the results of a Spark SQL Zeppelin query 【发布时间】:2017-01-14 13:09:53 【问题描述】:我们正在使用 apache zeppelin 来分析我们的数据集。我们有一些想要运行的查询,它们有大量的结果从它们返回,并且想要在 zeppelin 中运行查询但保存结果(显示限制为 1000)。有没有一种简单的方法可以让 zeppelin 将查询的所有结果保存到 s3 存储桶中?
【问题讨论】:
【参考方案1】:我设法使用 scala 解释器创建了一个可以有效执行我想要的操作的笔记本。
z.load("com.databricks:spark-csv_2.10:1.4.0")
val df= sqlContext.sql("""
select * from table
""")
df.repartition(1).write
.format("com.databricks.spark.csv")
.option("header", "true")
.save("s3://amazon.bucket.com/csv_output/")
值得一提的是 z.load 函数似乎有一天对我有用,但后来我又试了一次,由于某种原因,我不得不用 %dep 解释器在自己的段落中声明它,然后在标准的 scala 解释器
【讨论】:
谢谢! FWIW 在我的上下文中,我根本不需要加载 databricks 模块。以上是关于保存/导出 Spark SQL Zeppelin 查询的结果的主要内容,如果未能解决你的问题,请参考以下文章
Zeppelin - 无法使用 %sql 查询我在 pyspark 注册的表