Spark 1.6 在数据帧保持分区字段中加载特定分区

Posted 2023-04-15

技术标签:

【中文标题】Spark 1.6 在数据帧保持分区字段中加载特定分区【英文标题】：Spark 1.6 load specific partition in dataframe keeping partition field 【发布时间】：2017-03-16 19:28:11 【问题描述】：

我们有一个像这样分区的 avro：

table
--a=01
--a=02

我们希望从保留分区列 a 的单个分区加载数据。我找到了this *** question，并应用了建议的 sn-p：

DataFrame df = hiveContext.read().format(format).
option("basePath", "path/to/table/").
load("path/to/table/a=01")

但当我尝试读取字段 a 时，它会显示：

org.apache.spark.sql.AnalysisException: cannot resolve 'a' given input columns: [b, c, d]

在 Spark Java API 1.6 中是否可行？

【问题讨论】：

【参考方案1】：

简单地说，答案是……不，这是不可能的。

【讨论】：

以上是关于Spark 1.6 在数据帧保持分区字段中加载特定分区的主要内容，如果未能解决你的问题，请参考以下文章

在 Delphi 6 中加载特定帧会导致它立即退出

Apache Pig 中的 HCatalog 可以只加载特定分区吗？

spark：如何在数据帧上进行 dropDuplicates，同时保持最高时间戳行 [重复]

如何仅对 Spark 数据帧上的特定字段使用“立方体”？

Spark 1.6 数据帧缓存无法正常工作

Spark 1.6 向 Cassandra 插入数据帧