sparksql怎么去掉na

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sparksql怎么去掉na相关的知识,希望对你有一定的参考价值。

答案如下:
1.sparkSQL去掉的na操作:sparkSQL去掉的na方法,返回的是一个DataFrameFuctions对象,此类主要是对DataFrame中值为null的行的操作,只提供三个方法,drop()删除行,fill()填充行,replace()代替行的操作。
2.使用sparkSQL去掉na的目的,就是为了解决用写sql不能解决的或者解决起来比较困难的问题,在平时的开发过程中,我们不能为了高逼格什么样的sql问题都是用sparkSQL,这样不是最高效的。
3.使用sparkSQL,主要是利用了写代码处理数据逻辑的灵活性,但是我们也不能完全的只使用sparkSQL提供的sql方法,这样同样是走向了另外一个极端,有上面的讨论可知,在使用join操作时,如果使用sparkSQL的join操作,有很多的弊端。
4.为了能结合sql语句的优越性,我们可以先把要进行链接的DataFrame对象,注册成内部的一个中间表,然后在通过写sql语句,用SQLContext提供的sql()方法来执行我们写的sql,这样处理起来更加的合理而且高效。
参考技术A sparksql怎么去掉na,SparkSQL处理缺失值

⼀:缺失值的处理⽅式

1.常见的缺失值有两种

1.null, NaN 等特殊类型的值, 某些语⾔中 null 可以理解是⼀个对象, 但是代表没有对象, NaN 是⼀个数字, 可以代表不是数字针对这⼀类的缺失值, Spark 提供了⼀个名为 DataFrameNaFunctions 特殊类型来操作和处理

2.“Null”, “NA”, " " 等解析为字符串的类型, 但是其实并不是常规字符串数据

以上是关于sparksql怎么去掉na的主要内容,如果未能解决你的问题,请参考以下文章

sparksql怎么批量删除分区

求问怎么设置sparksql读取hive的数据库

求问怎么设置sparksql读取hive的数据库

SparkSql会生成很多的小文件,怎么解决哦

hive kerberos sparksql怎么创建hivecontext

SparkSQL源码阅读