解决spark dataframe get 报空指针异常 java.lang.NullPointerException

Posted 格格巫 MMQ!!

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了解决spark dataframe get 报空指针异常 java.lang.NullPointerException相关的知识,希望对你有一定的参考价值。

Spark 编程读取hive,hbase, 文本等外部数据生成dataframe后,一般我们都会map遍历get数据的每个字段,此时如果原始数据为null时,如果不进行判断直接转化为string,就会报空指针异常 java.lang.NullPointerException
示例代码如下:

val data = spark.sql(sql)

val rdd = data.rdd.map(record => 
  val recordSize = record.size
  for(i <- 0 to (recordSize-1))
    val str = record.get(i).toString
    do something...
  

为了解决该问题,可以对代码添加判空逻辑,如下所示:

val data = spark.sql(sql)

val rdd = data.rdd.map(record => 
  val recordSize = record.size
  for(i <- 0 to (recordSize-1))
    val str = record.get(i)
    if(!record.isNullAt(i) && !str.toString.isEmpty)
     do something...
    
  

record.isNullAt(i) 判断第i个字段取值是否为null
不为null的话,再用isEmpty判断是否为空

以上是关于解决spark dataframe get 报空指针异常 java.lang.NullPointerException的主要内容,如果未能解决你的问题,请参考以下文章

使用dataframe解决spark TopN问题:分组排序取TopN

带有浮点数 Spark 1.6 的 DataFrame 上的 SQL 百分位数 - 任何可能的解决方法? [复制]

使用scala在Spark中转置DataFrame而不进行聚合

在Java实体类get方法里面需要做一个判断,但是报空指针异常

从 Pandas Dataframe 错误创建 Spark DataFrame

通过集合构建RDD或者DataFrame