Spark读取HDFS数据分区参考

Posted 2023-04-05

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Spark读取HDFS数据分区参考相关的知识，希望对你有一定的参考价值。

参考技术A refer: https://www.jianshu.com/p/182901f03296

hive metastore 和 parquet 转化的方式通过 spark.sql.hive.convertMetastoreParquet 控制，默认为 true。
如果设置为 true ，会使用 org.apache.spark.sql.execution.FileSourceScanExec ，否则会使用 org.apache.spark.sql.hive.execution.HiveTableScanExec。

前者对分区规则做了一些优化，如果文件是：

HiveTableScanExec
通过文件数量，大小进行分区。
例如：读入一份 2048M 大小的数据，hdfs 块大小设置为 128M

该目录有1000个小文件，则会生成1000个partition。
如果只有1个文件，则会生成 16 个分区。
如果有一个大文件1024M，其余 999 个文件共 1024M，则会生成 1007个分区。

源码级解读如何解决Spark-sql读取hive分区表执行效率低问题

参考技术A

问题描述

在开发过程中使用spark去读取hive分区表的过程中（或者使用hive on spark、nodepad开发工具），部分开发人员未注意添加分区属性过滤导致在执行过程中加载了全量数据，引起任务执行效率低、磁盘IO大量损耗等问题。

解决办法

1、自定义规则CheckPartitionTable类，实现Rule，通过以下方式创建SparkSession。

2、自定义规则CheckPartitionTable类，实现Rule，将规则类追加至Optimizer.batches: Seq[Batch]中，如下。

规则内容实现

1、CheckPartitionTable规则执行类，需要通过引入sparkSession从而获取到引入conf；需要继承Rule[LogicalPlan]；

2、通过splitPredicates方法，分离分区谓词，得到分区谓词表达式。在sql解析过程中将谓词解析为TreeNode，此处采用递归的方式获取分区谓词。

3、判断是否是分区表，且是否添加分区字段。

4、实现Rule的apply方法

大数据和云计算的关系

大数据JUC面试题

大数据之Kafka集群部署

大数据logstsh架构

大数据技术kafka的零拷贝

以上是关于Spark读取HDFS数据分区参考的主要内容，如果未能解决你的问题，请参考以下文章

【大数据】Spark 递归读取 HDFS

Spark Sql 从 Hive orc 分区表中读取，给出数组越界异常

spark rdd--分区理解

请教一个关于使用spark 读取kafka只能读取一个分区数据的问题

spark 可以直接向hdfs 输入数据吗