在火花中删除空值列
Posted
技术标签:
【中文标题】在火花中删除空值列【英文标题】:Drop null value column in spark 【发布时间】:2017-04-28 17:23:31 【问题描述】:我有以下给定的代码
ataset.select("Lead Owner").show();
dataset.filter(dataset.col("Lead Owner").isNotNull());
dataset.select("Lead Owner").show();
但它不会删除列 Lead Owner 具有空值的行。谁能告诉我在这里做错了什么?
【问题讨论】:
这个 Null 是您添加的 Null 还是来自 Spark 的 Null?像创建 Null 字段的 Left Join 一样? 这是 Spark 的 Null,我正在尝试这样做***.com/a/35478464/3572733 【参考方案1】:数据集是不可变的。 dataset.filter
是一个转换,将返回一个新的数据集,而不是修改原始数据集。请参考DataSet Docs
val filteredData = dataset.filter(dataset.col("Lead Owner").isNotNull());
filteredData.select("Lead Owner").show();
【讨论】:
以上是关于在火花中删除空值列的主要内容,如果未能解决你的问题,请参考以下文章
数据库中的空值与NULL的区别以及python中的NaN和None
使用 Java 在 Spark Data Frame 中添加空值列
Apache Spark:如何使用 Java 在 dataFrame 中的空值列中插入数据