【大数据】Spark 递归读取 HDFS
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【大数据】Spark 递归读取 HDFS相关的知识,希望对你有一定的参考价值。
参考技术A HDFS 若有子目录,Spark 是不能递归读取子目录,需要在 spark-submit 中配置以下参数:在spark udf中读取hdfs上的文件
某些场景下,我们在写UDF实现业务逻辑时候,可能需要去读取某个配置文件。
大多时候我们都会将此文件上传个hdfs某个路径下,然后通过hdfs api读取该文件,但是需要注意:
UDF中读取文件部分最好放在静态代码块中(只会在类加载时候读取一次),尤其在处理的数据量比较大的时候,否则会反反复复的读取,造成不必要的开销,甚至任务失败,示例代码如下:
package cn.com.dtmobile.udf; import java.util.HashMap; import org.apache.spark.sql.api.java.UDF2; import cn.com.dtmobile.util.HdfsUtil; public class CalculateRsrp implements UDF2<Double, String, Double> private static final long serialVersionUID = 1L; private static HashMap<String,Double> paramteres = null; static paramteres = HdfsUtil.readHdfsFile("your file location"); @Override public Double call(Double t1, String t2) throws Exception // 处理逻辑 return null;
以上是关于【大数据】Spark 递归读取 HDFS的主要内容,如果未能解决你的问题,请参考以下文章
分布式大数据系统概览(HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph)