如何将 Spark 结构化流数据写入 Hive?

Posted

技术标签:

【中文标题】如何将 Spark 结构化流数据写入 Hive?【英文标题】:How to write Spark Structured Streaming Data into Hive? 【发布时间】:2017-08-21 11:30:33 【问题描述】:

df.write().saveAsTable(tablename) 但是我不确定这是否写入流数据

我通常使用df.writeStream().trigger(new ProcessingTime(1000)).foreach(new KafkaSink()).start() 将流数据写入 Kafka,但我没有看到类似将流数据写入 Hive 数据仓库的任何东西。有什么想法吗?

【问题讨论】:

【参考方案1】:
df.createOrReplaceTempView("mytable") 
spark.sql("create table mytable as select * from mytable");

df.write().mode(SaveMode.Overwrite).saveAsTable("dbName.tableName");

【讨论】:

如果要将数据添加到同一个表中,则必须使用 .mode(SaveMode.append)。 我认为这个问题寻求有关如何将流数据写入配置单元的信息。您的解决方案适用于批量数据。

以上是关于如何将 Spark 结构化流数据写入 Hive?的主要内容,如果未能解决你的问题,请参考以下文章

Spark 结构化流写入流到 Hive ORC 分区外部表

如何将 Spark 结构化流数据写入 REST API?

实时 Hive 数据转换?

Hive:Spark中如何实现将rdd结果插入到hive1.3.1表中

如何将数据写入 Hive 表?

查询Spark同时加载的hive表时如何避免错误