替换数据框中的所有特定值
Posted
技术标签:
【中文标题】替换数据框中的所有特定值【英文标题】:Replace all particular values in a data frame 【发布时间】:2013-10-30 11:04:24 【问题描述】:拥有一个数据框,我该如何替换所有行和列中的所有特定值。比如说我想用NA
's 替换所有空记录(不输入位置):
df <- data.frame(list(A=c("", "xyz", "jkl"), B=c(12, "", 100)))
A B
1 12
2 xyz
3 jkl 100
预期结果:
A B
1 NA 12
2 xyz NA
3 jkl 100
【问题讨论】:
【参考方案1】:像这样:
> df[df==""]<-NA
> df
A B
1 <NA> 12
2 xyz <NA>
3 jkl 100
【讨论】:
有没有办法为超过 1 个值有效地做到这一点!? 这不适用于因子,df[df=="xyz"]<-"abc"
将出现“无效因子水平”错误。有没有更通用的解决方案?
不适合我。我试过这个:dfSmallDiscreteCustomSalary[dfSmallDiscreteCustomSalary$salary=="50K
glallen ...如果您尝试使用已经是一个因子的新值修改因子列,那么我将建议的可能有更聪明的方法,但您可以 df $factorcolumn
找到了:df.na.replace(df.columns, Map("" -> "NA")).show。有趣的是,我无法用 null 作为值替换。我得到:java.lang.IllegalArgumentException:不支持的值类型 java.lang.String (null)。在 org.apache.spark.sql.DataFrameNaFunctions.org$apache$spark$sql$DataFrameNaFunctions$$convertToDouble(DataFrameNaFunctions.scala:434)【参考方案2】:
由于 PikkuKatja 和 glallen 要求提供更通用的解决方案,我还不能发表评论,所以我会写一个答案。您可以组合语句,如下所示:
> df[df=="" | df==12] <- NA
> df
A B
1 <NA> <NA>
2 xyz <NA>
3 jkl 100
对于因子,zxzak 的代码已经产生了因子:
> df <- data.frame(list(A=c("","xyz","jkl"), B=c(12,"",100)))
> str(df)
'data.frame': 3 obs. of 2 variables:
$ A: Factor w/ 3 levels "","jkl","xyz": 1 3 2
$ B: Factor w/ 3 levels "","100","12": 3 1 2
如果遇到麻烦,我建议暂时放弃这些因素。
df[] <- lapply(df, as.character)
【讨论】:
【参考方案3】:我们可以使用 data.table 快速获取。 首先创建没有因子的df,
df <- data.frame(list(A=c("","xyz","jkl"), B=c(12,"",100)), stringsAsFactors=F)
现在你可以使用
setDT(df)
for (jj in 1:ncol(df)) set(df, i = which(df[[jj]]==""), j = jj, v = NA)
您可以将其转换回 data.frame
setDF(df)
如果你只想使用 data.frame 并保留因子比较困难,你需要使用
levels(df$value)[levels(df$value)==""] <- NA
其中 value 是每列的名称。您需要将其插入循环中。
【讨论】:
为什么要为这个用例使用外部库?如果可以用一行来解决,为什么要循环?除了已经存在的答案之外,您的答案如何增加价值?我不打算苛刻,我想我错过了一些东西,因此提出了问题。 处理大型数据集要快得多。它添加了一个替代方案,以便用户可以为他选择最好的。【参考方案4】:如果您想替换数据框中的多个值,循环遍历所有列可能会有所帮助。
说你要替换""
和100
:
na_codes <- c(100, "")
for (i in seq_along(df))
df[[i]][df[[i]] %in% na_codes] <- NA
【讨论】:
【参考方案5】:这里有几个dplyr
选项:
library(dplyr)
# all columns:
df %>%
mutate_all(~na_if(., ''))
# specific column types:
df %>%
mutate_if(is.factor, ~na_if(., ''))
# specific columns:
df %>%
mutate_at(vars(A, B), ~na_if(., ''))
# or:
df %>%
mutate(A = replace(A, A == '', NA))
# replace can be used if you want something other than NA:
df %>%
mutate(A = as.character(A)) %>%
mutate(A = replace(A, A == '', 'used to be empty'))
【讨论】:
您将如何使用全列解决方案将整个数据集中的多个字符串替换为 NA? 这些选项仍然完全有效,只需注意“mutate_at”和“mutate_all”函数已被“across()”取代。它们仍然受支持,但 R 建议改为“across()”。更多细节在这里:dplyr.tidyverse.org/reference/across.html以上是关于替换数据框中的所有特定值的主要内容,如果未能解决你的问题,请参考以下文章