由于 Hive 元存储中的许多分区而导致的错误

Posted 2023-04-15

技术标签:

【中文标题】由于 Hive 元存储中的许多分区而导致的错误【英文标题】：Errors due to many partitions in Hive metastore 【发布时间】：2015-11-22 18:34:00 【问题描述】：

我正在使用 Apache spark-sql 从数据库中查询数据。我知道 Spark 默认共享相同的配置单元元存储。我已根据具有超过 300k 个不同值的列 id 对输入数据进行了分区。截至目前，该表有超过 30 万个分区，并且会定期增加。

会不会因此而出现问题？

【问题讨论】：

【参考方案1】：

是的，这么多分区条目会在名称节点上产生开销来跟踪每个分区条目。

如果您只有一个表，那么对该列进行 Hive 索引是一个不错的选择。

【讨论】：

以上是关于由于 Hive 元存储中的许多分区而导致的错误的主要内容，如果未能解决你的问题，请参考以下文章