【大数据】Spark 递归读取 HDFS

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【大数据】Spark 递归读取 HDFS相关的知识,希望对你有一定的参考价值。

参考技术A HDFS 若有子目录,Spark 是不能递归读取子目录,需要在 spark-submit 中配置以下参数:

在spark udf中读取hdfs上的文件

某些场景下,我们在写UDF实现业务逻辑时候,可能需要去读取某个配置文件。

大多时候我们都会将此文件上传个hdfs某个路径下,然后通过hdfs api读取该文件,但是需要注意:

  UDF中读取文件部分最好放在静态代码块中(只会在类加载时候读取一次),尤其在处理的数据量比较大的时候,否则会反反复复的读取,造成不必要的开销,甚至任务失败,示例代码如下:

 

package cn.com.dtmobile.udf;

import java.util.HashMap;

import org.apache.spark.sql.api.java.UDF2;

import cn.com.dtmobile.util.HdfsUtil;

public class CalculateRsrp implements UDF2<Double, String, Double> 

    private static final long serialVersionUID = 1L;

    private static HashMap<String,Double> paramteres = null;
    static 
        paramteres = HdfsUtil.readHdfsFile("your file location");
    
    
    @Override
    public Double call(Double t1, String t2) throws Exception 

        // 处理逻辑
        
        return null;
    

 

以上是关于【大数据】Spark 递归读取 HDFS的主要内容,如果未能解决你的问题,请参考以下文章

Spark读取Hive数据的两种方式与保存数据到HDFS

大数据Spark入门以及集群搭建

spark-使用总结-大数据基础入门

大数据计算 Spark的安装和基础编程

在spark udf中读取hdfs上的文件

分布式大数据系统概览(HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph)