在spark udf中读取hdfs上的文件

Posted dtmobile-ksw

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在spark udf中读取hdfs上的文件相关的知识,希望对你有一定的参考价值。

某些场景下,我们在写UDF实现业务逻辑时候,可能需要去读取某个配置文件。

大多时候我们都会将此文件上传个hdfs某个路径下,然后通过hdfs api读取该文件,但是需要注意:

  UDF中读取文件部分最好放在静态代码块中(只会在类加载时候读取一次),尤其在处理的数据量比较大的时候,否则会反反复复的读取,造成不必要的开销,甚至任务失败,示例代码如下:

 

package cn.com.dtmobile.udf;

import java.util.HashMap;

import org.apache.spark.sql.api.java.UDF2;

import cn.com.dtmobile.util.HdfsUtil;

public class CalculateRsrp implements UDF2<Double, String, Double> 

    private static final long serialVersionUID = 1L;

    private static HashMap<String,Double> paramteres = null;
    static 
        paramteres = HdfsUtil.readHdfsFile("your file location");
    
    
    @Override
    public Double call(Double t1, String t2) throws Exception 

        // 处理逻辑
        
        return null;
    

 

以上是关于在spark udf中读取hdfs上的文件的主要内容,如果未能解决你的问题,请参考以下文章

Pig UDF 将文件写入 HDFS

从 HIVE UDF 读取 HDFS 文件 - 执行错误,返回代码 101 FunctionTask。无法初始化类

输入数据框的 Spark Udf 函数

在 Spark/Scala 中写入 HDFS,读取 zip 文件

使用java读取存储在hdfs中的excel文件

Spark 上的 Levenshtein 距离算法