重新排列和排序

Posted 2021-04-20

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了重新排列和排序相关的知识，希望对你有一定的参考价值。

我有以下数据

ID v1 v2 v3 v4 v5 
1  1  3  6  4
2  4  2
3  3  1   8    5
4  2  5   3    1

我可以重新排列数据，以便根据每个变量（v1到v5）中的值自动创建新列并分配二进制值（1或0）吗？

例如。在第一行中，我有1,3,4和6的值.Can R会自动创建6个虚拟变量，以便将值分配给相应的列，如下所示：

 ID dummy1 dummy2 dummy3 dummy4 dummy5 dummy6
 1    1     0      1      1      0       1

有这样的事情：

ID c1 c2 c3 c4 c5 c6 c7 c8
1  1  0  1  1  0  1  0  0
2  0  1  0  1  0  0  0  0
3  1  0  1  0  1  0  0  1
4  1  1  1  0  1  0  0  0

谢谢。

答案

我们可以使用base R来做到这一点。循环遍历除第一列之外的数据集的行，获取行中max值的序列，检查行中有多少这些值并使用integer将其转换为as.integer，在末尾附加NAs以使长度相同list输出和cbind与第一列

lst <- apply(df[-1], 1, function(x) as.integer(seq_len(max(x, na.rm = TRUE)) %in% x))
res <- cbind(df[1], do.call(rbind, lapply(lst, `length<-`, max(lengths(lst)))))
res[is.na(res)] <- 0
colnames(res)[-1] <- paste0('c', 1:8)
res
#  ID c1 c2 c3 c4 c5 c6 c7 c8
#1  1  1  0  1  1  0  1  0  0
#2  2  0  1  0  1  0  0  0  0
#3  3  1  0  1  0  1  0  0  1
#4  4  1  1  1  0  1  0  0  0

另一答案

在基数R中，您可以使用：

table(transform(cbind(mydf[1], stack(mydf[-1]))[1:2], values = factor(values, 1:8)))
##    values
## ID  1 2 3 4 5 6 7 8
##   1 1 0 1 1 0 1 0 0
##   2 0 1 0 1 0 0 0 0
##   3 1 0 1 0 1 0 0 1
##   4 1 1 1 0 1 0 0 0

请注意，如果要将“7”包含在输出中，则需要将堆叠值转换为factor。这也适用于“data.table”和“tidyverse”方法。

或者，您可以使用“data.table”尝试以下操作：

library(data.table)
melt(as.data.table(mydf), "ID", na.rm = TRUE)[
  , dcast(.SD, ID ~ factor(value, 1:8), fun = length, drop = FALSE)]

或者以下“tidyverse”：

library(tidyverse)
mydf %>% 
  gather(var, val, -ID, na.rm = TRUE) %>% 
  select(-var) %>% 
  mutate(var = 1, val = factor(val, 1:8)) %>% 
  spread(val, var, fill = 0, drop = FALSE)

样本数据：

mydf <- structure(list(ID = 1:4, v1 = c(1L, 4L, 3L, 2L), v2 = c(3L, 2L, 
    1L, 5L), v3 = c(6L, NA, 8L, 3L), v4 = c(4L, NA, 5L, 1L), v5 = c(NA, 
    NA, NA, NA)), .Names = c("ID", "v1", "v2", "v3", "v4", "v5"), row.names = c(NA, 
    4L), class = "data.frame")

如果自动化很重要，您还可以在“data.table”方法中使用factor(value, sequence(max(value))等语法，或者在“tidyverse”方法中使用val = factor(val, sequence(max(val))))。

另一答案

另一个与akrun有一些相似之处的基础R答案是

# create matrix of values
myMat <- as.matrix(dat[-1])
# create result matrix of desired shape, filled with 0s
res <- matrix(0L, nrow(dat), ncol=max(myMat, na.rm=TRUE))
# use matrix indexing to fill in 1s
res[cbind(dat$ID, as.vector(myMat))] <- 1L
# convert to data.frame, add ID column, and provide variable names
setNames(data.frame(cbind(dat$ID, res)), c("ID", paste0("c", 1:8)))

  ID c1 c2 c3 c4 c5 c6 c7 c8
1  1  1  0  1  1  0  1  0  0
2  2  0  1  0  1  0  0  0  0
3  3  1  0  1  0  1  0  0  1
4  4  1  1  1  0  1  0  0  0

以上是关于重新排列和排序的主要内容，如果未能解决你的问题，请参考以下文章