如何使用 Java 在 Dataset Spark 中过滤列并删除行

Posted

技术标签:

【中文标题】如何使用 Java 在 Dataset Spark 中过滤列并删除行【英文标题】:How to filter a Column and delete a Row in Dataset Spark using Java 【发布时间】:2021-11-15 22:23:11 【问题描述】:

我需要过滤搜索特殊字符的数据集并删除找到它的行。 我试图用“”替换特殊字符,但它也不起作用。

Dataset<row> dataset;
dataset.withColumn("nameColumn", function.regex_replace(dataset.col("nameColumn"), "[^\\pASCII]", "")); 

【问题讨论】:

【参考方案1】:

您可以过滤它们:


filitered_ds = dataset.where(!col("nameColumn").rlike("[^\pASCII]"))

【讨论】:

谢谢你,朋友!我所做的是:字符串模式 = "^\\\\u0000-\\\\u007F]*$";数据集 datasetFiltered = T.where(T.col("columnName".rlike(pattern));

以上是关于如何使用 Java 在 Dataset Spark 中过滤列并删除行的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Spark Dataset API (Java) 创建数组列

Java-Spark:如何在循环中迭代时获取 Dataset<Row> 列的值并在 when().otherwise() 中使用它?

如何在 Spark 中将 JavaPairInputDStream 转换为 DataSet/DataFrame

如何在 apache spark 中同时使用 dataset.select 和 selectExpr

dataset.write() 导致 ORA-00001 spark java

使用 Apache Spark 和 Java 将 CSV 解析为 DataFrame/DataSet