总结R数据框中因素的分布

Posted

技术标签:

【中文标题】总结R数据框中因素的分布【英文标题】:Summarize distribution of factors in R data frame 【发布时间】:2016-12-21 03:44:54 【问题描述】:

假设我有一个这样的 data.frame:

  X1   X2   X3
1 A    B    A
2 A    C    B
3 B    A    B
4 A    A    C

我想统计每一列中A、B、C等出现的次数,并将结果返回为

    A_count B_count C_count
X1  3       1       0       
X2  2       1       1
X3  1       2       1

我确定这个问题有一千个重复,但我似乎找不到适合我的答案:(

通过运行

apply(mydata, 2, table)

我得到了类似的东西

$X1
   B     A
   1     3
$X2
   A     C     B
   2     1     1

但这并不是我想要的,如果我尝试将它重新构建到数据框中,它就不起作用,因为我没有为每一行获得相同数量的列(比如上面的 $X1没有 C)。

我错过了什么?

非常感谢!

【问题讨论】:

【参考方案1】:

您可以重构以包括每列共有的因子水平,然后制表。我还建议使用lapply() 而不是apply(),因为apply() 用于矩阵。

df <- read.table(text = "X1   X2   X3
1 A    B    A
2 A    C    B
3 B    A    B
4 A    A    C", h=T)

do.call(
    rbind, 
    lapply(df, function(x) table(factor(x, levels=levels(unlist(df)))))
)
#    A B C
# X1 3 1 0
# X2 2 1 1
# X3 1 2 1

【讨论】:

【参考方案2】:

假设你的数据框是x,我会这样做:

do.call(rbind, tapply(unlist(x, use.names = FALSE),
                      rep(1:ncol(x), each = nrow(x)),
                      table))

#  A B C
#1 3 1 0
#2 2 1 1
#3 1 2 1

基准测试

# a function to generate toy data
# `k` factor levels
# `n` row
# `p` columns
datsim <- function(n, p, k) 
  as.data.frame(replicate(p, sample(LETTERS[1:k], n, TRUE), simplify = FALSE),
                col.names = paste0("X",1:p), stringsAsFactors = TRUE)
  

# try `n = 100`, `p = 500` and `k = 3`
x <- datsim(100, 500, 3)

## DirtySockSniffer's answer
system.time(do.call(rbind, lapply(x, function(u) table(factor(u, levels=levels(unlist(x)))))))
#   user  system elapsed 
# 21.240   0.068  21.365 

## my answer
system.time(do.call(rbind, tapply(unlist(x, use.names = FALSE), rep(1:ncol(x), each = nrow(x)), table)))
#   user  system elapsed 
#  0.108   0.000   0.111 

可以通过以下方式改进 Dirty 的答案:

## improved DirtySockSniffer's answer
system.time(clevels <- levels(unlist(x, use.names = FALSE));
             do.call(rbind, lapply(x, function(u) table(factor(u, levels=clevels)))))
#   user  system elapsed 
#  0.108   0.000   0.108

还要考虑 user20650 的回答

## Let's try a large `n`, `p`, `k`
x <- datsim(200, 5000, 5)

system.time(t(table(stack(lapply(x, as.character)))))
#   user  system elapsed 
#  0.592   0.052   0.646 

虽然我的回答是:

system.time(do.call(rbind, tapply(unlist(x, use.names = FALSE), rep(1:ncol(x), each = nrow(x)), table)))
#   user  system elapsed 
#  1.844   0.056   1.904 

改进了 Dirty 的答案:

system.time(clevels <- levels(unlist(x, use.names = FALSE));
             do.call(rbind, lapply(x, function(u) table(factor(u, levels=clevels)))))
#   user  system elapsed 
#  1.240   0.012   1.263 

【讨论】:

您好,哲元,不重要,但在我的笔记本电脑上levels(u)[u]as.character 慢一点。 (我认为这是有道理的,因为我确信 r 人对此进行了优化) 对于第二个示例,它看起来好像更快,因为 as.numeric 在较小的向量上调用,而不是完整的向量。因此,如果需要转换为数字,就像你说的那样,它看起来会更快。

以上是关于总结R数据框中因素的分布的主要内容,如果未能解决你的问题,请参考以下文章

2021-06-19 R语言执行单因素方差分析(单因素ANOVA)及多重比较

dplyr R组总数因因素而异

R语言多因素有交互方差分析(Two-Way ANOVA)实战:拟合多因素有交互方差分析模型分析不同分组的差异TukeyHSD多因素有交互方差分析的结果总结

实验的方差分析(R语言)

R语言单因素、多因素方差分析ANOVA analysis of variance

切换数据框中的列和行,并在单独的列标题下列出观察结果以执行 Anova:单因素