pyspark hive.table 没有读取配置单元表的所有行
Posted
技术标签:
【中文标题】pyspark hive.table 没有读取配置单元表的所有行【英文标题】:pyspark hive.table not reading all row of hive table 【发布时间】:2020-10-22 13:36:40 【问题描述】:我在 pyspark 中使用 hive llap(https://github.com/hortonworks-spark/spark-llap) 来读取 hive 内部表,如下所示:
df = hive.table(<tableName>)
但问题是我的表有 1800 万条记录,但是当我这样做时
df.count()
我只计算了 750 万,这是错误的
【问题讨论】:
答案有帮助吗? 【参考方案1】:您可能必须刷新不使用 hive 元存储的 spark 元存储,并且统计信息可能只是陈旧的
您可以像这样刷新 pyspark 元存储:
spark.sql("REFRESH TABLE <TABLE_NAME>")
【讨论】:
以上是关于pyspark hive.table 没有读取配置单元表的所有行的主要内容,如果未能解决你的问题,请参考以下文章
无法使用 pyspark 从 hive 表中查询复杂的 SQL 语句
在 Hive-S3 表的情况下,pyspark 命令行中的错误
CREATE Hive TABLE (AS SELECT) 需要 Hive 支持
通过 Spark SQL 读取 Hive Table 的最佳方法是啥?
PySpark 无法通过 sparkContext/hiveContext 读取 Hive ORC 事务表?我们可以使用 Pyspark 更新/删除配置单元表数据吗?