Spark 和 HC 目录?
Posted
技术标签:
【中文标题】Spark 和 HC 目录?【英文标题】:Spark & HCatalog? 【发布时间】:2014-08-14 13:03:47 【问题描述】:我对使用 Pig 加载 HCatalog 感到很自在,并且想知道是否可以使用 Spark 代替 Pig。不幸的是,我对 Spark 很陌生... 你能提供任何关于如何开始的材料吗?是否有任何 Spark 库可供使用? 任何例子?我已经在http://spark.apache.org/ 上进行了所有练习,但他们专注于 RDD,不会再进一步了..
如果有任何帮助,我将不胜感激... 问候 帕维尔
【问题讨论】:
【参考方案1】:您可以使用 spark SQL 从 Hive 表而不是 HCatalog 中读取。
https://spark.apache.org/sql/
您可以使用 Spark Java/Scala/Python 语言(如过滤器、连接、分组依据)应用与 Pig 相同的转换。
【讨论】:
您不仅可以对数据集进行基本转换,还可以直接在 Spark 中创建配置单元表/直接通过 SQL 加载它们等。【参考方案2】:您可以参考以下链接以将 HCatalog InputFormat 包装器与 Spark 一起使用;这是在 SparkSQL 之前编写的。https://gist.github.com/granturing/7201912
【讨论】:
【参考方案3】:我们的系统已经加载了两者,我们可以使用其中任何一个。 Spark 具有您正在使用的语言的特征,Scala,Python...,。例如,将 Spark 与 Python 结合使用,您可以在 Spark 中使用许多 Python 库。
【讨论】:
以上是关于Spark 和 HC 目录?的主要内容,如果未能解决你的问题,请参考以下文章