pyspark hive.table 没有读取配置单元表的所有行

Posted

技术标签:

【中文标题】pyspark hive.table 没有读取配置单元表的所有行【英文标题】:pyspark hive.table not reading all row of hive table 【发布时间】:2020-10-22 13:36:40 【问题描述】:

我在 pyspark 中使用 hive llap(https://github.com/hortonworks-spark/spark-llap) 来读取 hive 内部表,如下所示:

df = hive.table(<tableName>)

但问题是我的表有 1800 万条记录,但是当我这样做时

df.count()

我只计算了 750 万,这是错误的

【问题讨论】:

答案有帮助吗? 【参考方案1】:

您可能必须刷新不使用 hive 元存储的 spark 元存储,并且统计信息可能只是陈旧的

您可以像这样刷新 pyspark 元存储:

spark.sql("REFRESH TABLE <TABLE_NAME>")

【讨论】:

以上是关于pyspark hive.table 没有读取配置单元表的所有行的主要内容,如果未能解决你的问题,请参考以下文章