将 Hive 转换为 spark

Posted

技术标签:

【中文标题】将 Hive 转换为 spark【英文标题】:Converting Hive to spark 【发布时间】:2018-02-13 13:08:49 【问题描述】:

我有一个项目,它有 hive 脚本来每天处理 hadoop 数据。 我想将 hive 更改为 spark 以每小时处理或实时处理。 将 hive 脚本转换为 spark 的最佳方法是什么?

【问题讨论】:

这个问题太宽泛了,网上有很多资源/博客告诉你怎么做。在发布可以激励社区中的人们帮助您的问题之前,请尝试发布您所做的研究。 #只是一个建议 【参考方案1】:

您几乎不需要进行任何转换。 Spark 运行与 Hive 完全相同的 sql 语法。或者你可以make Hive run Spark executions

使用 Oozie 或 cron 来安排每小时间隔。不要为此使用 Spark Streaming

【讨论】:

以上是关于将 Hive 转换为 spark的主要内容,如果未能解决你的问题,请参考以下文章

使用 Spark Scala 将 Sql Server 数据类型转换为 Hive 数据类型

使用 Java 将 Json 对象转换为 Parquet 格式而不转换为 AVRO(不使用 Spark、Hive、Pig、Impala)

将转换从 hive sql 查询转移到 Spark

将 Spark 数据集转换为 JSON 并写入 Kafka Producer

使用 Spark Scala 进行表数据转换

使用 Java 将数据存储为 Apache Spark 中的配置单元表