pyspark hive.table 没有读取配置单元表的所有行

Posted

技术标签:

【中文标题】pyspark hive.table 没有读取配置单元表的所有行【英文标题】:pyspark hive.table not reading all row of hive table 【发布时间】:2020-10-22 13:36:40 【问题描述】:

我在 pyspark 中使用 hive llap(https://github.com/hortonworks-spark/spark-llap) 来读取 hive 内部表,如下所示:

df = hive.table(<tableName>)

但问题是我的表有 1800 万条记录,但是当我这样做时

df.count()

我只计算了 750 万,这是错误的

【问题讨论】:

答案有帮助吗? 【参考方案1】:

您可能必须刷新不使用 hive 元存储的 spark 元存储,并且统计信息可能只是陈旧的

您可以像这样刷新 pyspark 元存储:

spark.sql("REFRESH TABLE <TABLE_NAME>")

【讨论】:

以上是关于pyspark hive.table 没有读取配置单元表的所有行的主要内容,如果未能解决你的问题,请参考以下文章

无法使用 pyspark 从 hive 表中查询复杂的 SQL 语句

在 Hive-S3 表的情况下,pyspark 命令行中的错误

CREATE Hive TABLE (AS SELECT) 需要 Hive 支持

通过 Spark SQL 读取 Hive Table 的最佳方法是啥?

PySpark 无法通过 sparkContext/hiveContext 读取 Hive ORC 事务表?我们可以使用 Pyspark 更新/删除配置单元表数据吗?

Pyspark:使用 configParser 读取 HDFS 上的属性文件