在火花中删除空值列

Posted

技术标签:

【中文标题】在火花中删除空值列【英文标题】:Drop null value column in spark 【发布时间】:2017-04-28 17:23:31 【问题描述】:

我有以下给定的代码

ataset.select("Lead Owner").show();
        dataset.filter(dataset.col("Lead Owner").isNotNull());
        dataset.select("Lead Owner").show();

但它不会删除列 Lead Owner 具有空值的行。谁能告诉我在这里做错了什么?

【问题讨论】:

这个 Null 是您添加的 Null 还是来自 Spark 的 Null?像创建 Null 字段的 Left Join 一样? 这是 Spark 的 Null,我正在尝试这样做***.com/a/35478464/3572733 【参考方案1】:

数据集是不可变的。 dataset.filter 是一个转换,将返回一个新的数据集,而不是修改原始数据集。请参考DataSet Docs

val filteredData = dataset.filter(dataset.col("Lead Owner").isNotNull());
filteredData.select("Lead Owner").show();

【讨论】:

以上是关于在火花中删除空值列的主要内容,如果未能解决你的问题,请参考以下文章

如何将SAS数据集中全部为空值的变量删除

数据库中的空值与NULL的区别以及python中的NaN和None

使用 Java 在 Spark Data Frame 中添加空值列

Apache Spark:如何使用 Java 在 dataFrame 中的空值列中插入数据

数据库中的空值与NULL的区别以及python中的NaN和None

数据库中的空值与NULL的区别以及python中的NaN和None