保存/导出 Spark SQL Zeppelin 查询的结果

Posted

技术标签:

【中文标题】保存/导出 Spark SQL Zeppelin 查询的结果【英文标题】:Saving/Exporting the results of a Spark SQL Zeppelin query 【发布时间】:2017-01-14 13:09:53 【问题描述】:

我们正在使用 apache zeppelin 来分析我们的数据集。我们有一些想要运行的查询,它们有大量的结果从它们返回,并且想要在 zeppelin 中运行查询但保存结果(显示限制为 1000)。有没有一种简单的方法可以让 zeppelin 将查询的所有结果保存到 s3 存储桶中?

【问题讨论】:

【参考方案1】:

我设法使用 scala 解释器创建了一个可以有效执行我想要的操作的笔记本。

z.load("com.databricks:spark-csv_2.10:1.4.0")
val df= sqlContext.sql("""
select * from table
""")

df.repartition(1).write
    .format("com.databricks.spark.csv")
    .option("header", "true")
    .save("s3://amazon.bucket.com/csv_output/")

值得一提的是 z.load 函数似乎有一天对我有用,但后来我又试了一次,由于某种原因,我不得不用 %dep 解释器在自己的段落中声明它,然后在标准的 scala 解释器

【讨论】:

谢谢! FWIW 在我的上下文中,我根本不需要加载 databricks 模块。

以上是关于保存/导出 Spark SQL Zeppelin 查询的结果的主要内容,如果未能解决你的问题,请参考以下文章

Zeppelin - 无法使用 %sql 查询我在 pyspark 注册的表

在独立的 zeppelin 中启动 thrift 服务器

Zeppelin:任何本地目录中都没有可用空间

无法在 Spark 中将文件写入 Zeppelin 上的远程 hdfs

如何在 Zeppelin 中加载 hiveContext?

Zeppelin:在 HDP3.0 中不显示 Hive 数据库/表