如何使用 Java 在 Dataset Spark 中过滤列并删除行
Posted
技术标签:
【中文标题】如何使用 Java 在 Dataset Spark 中过滤列并删除行【英文标题】:How to filter a Column and delete a Row in Dataset Spark using Java 【发布时间】:2021-11-15 22:23:11 【问题描述】:我需要过滤搜索特殊字符的数据集并删除找到它的行。 我试图用“”替换特殊字符,但它也不起作用。
Dataset<row> dataset;
dataset.withColumn("nameColumn", function.regex_replace(dataset.col("nameColumn"), "[^\\pASCII]", ""));
【问题讨论】:
【参考方案1】:您可以过滤它们:
filitered_ds = dataset.where(!col("nameColumn").rlike("[^\pASCII]"))
【讨论】:
谢谢你,朋友!我所做的是:字符串模式 = "^\\\\u0000-\\\\u007F]*$";数据集以上是关于如何使用 Java 在 Dataset Spark 中过滤列并删除行的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 Spark Dataset API (Java) 创建数组列
Java-Spark:如何在循环中迭代时获取 Dataset<Row> 列的值并在 when().otherwise() 中使用它?
如何在 Spark 中将 JavaPairInputDStream 转换为 DataSet/DataFrame
如何在 apache spark 中同时使用 dataset.select 和 selectExpr