sparksql怎么去掉na

Posted 2023-03-29

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了sparksql怎么去掉na相关的知识，希望对你有一定的参考价值。

答案如下：
1.sparkSQL去掉的na操作：sparkSQL去掉的na方法，返回的是一个DataFrameFuctions对象，此类主要是对DataFrame中值为null的行的操作，只提供三个方法，drop()删除行，fill()填充行，replace()代替行的操作。
2.使用sparkSQL去掉na的目的，就是为了解决用写sql不能解决的或者解决起来比较困难的问题，在平时的开发过程中，我们不能为了高逼格什么样的sql问题都是用sparkSQL，这样不是最高效的。
3.使用sparkSQL，主要是利用了写代码处理数据逻辑的灵活性，但是我们也不能完全的只使用sparkSQL提供的sql方法，这样同样是走向了另外一个极端，有上面的讨论可知，在使用join操作时，如果使用sparkSQL的join操作，有很多的弊端。
4.为了能结合sql语句的优越性，我们可以先把要进行链接的DataFrame对象，注册成内部的一个中间表，然后在通过写sql语句，用SQLContext提供的sql()方法来执行我们写的sql，这样处理起来更加的合理而且高效。参考技术A sparksql怎么去掉na，SparkSQL处理缺失值

⼀：缺失值的处理⽅式

1.常见的缺失值有两种

1.null, NaN 等特殊类型的值, 某些语⾔中 null 可以理解是⼀个对象, 但是代表没有对象, NaN 是⼀个数字, 可以代表不是数字针对这⼀类的缺失值, Spark 提供了⼀个名为 DataFrameNaFunctions 特殊类型来操作和处理

2.“Null”, “NA”, " " 等解析为字符串的类型, 但是其实并不是常规字符串数据

以上是关于sparksql怎么去掉na的主要内容，如果未能解决你的问题，请参考以下文章

sparksql怎么批量删除分区

求问怎么设置sparksql读取hive的数据库

SparkSql会生成很多的小文件，怎么解决哦

hive kerberos sparksql怎么创建hivecontext

SparkSQL源码阅读