Spark 1.6 在数据帧保持分区字段中加载特定分区
Posted
技术标签:
【中文标题】Spark 1.6 在数据帧保持分区字段中加载特定分区【英文标题】:Spark 1.6 load specific partition in dataframe keeping partition field 【发布时间】:2017-03-16 19:28:11 【问题描述】:我们有一个像这样分区的 avro:
table
--a=01
--a=02
我们希望从保留分区列 a 的单个分区加载数据。 我找到了this *** question,并应用了建议的 sn-p:
DataFrame df = hiveContext.read().format(format).
option("basePath", "path/to/table/").
load("path/to/table/a=01")
但当我尝试读取字段 a 时,它会显示:
org.apache.spark.sql.AnalysisException: cannot resolve 'a' given input columns: [b, c, d]
在 Spark Java API 1.6 中是否可行?
【问题讨论】:
【参考方案1】:简单地说,答案是……不,这是不可能的。
【讨论】:
以上是关于Spark 1.6 在数据帧保持分区字段中加载特定分区的主要内容,如果未能解决你的问题,请参考以下文章
Apache Pig 中的 HCatalog 可以只加载特定分区吗?