为一列中的值重塑数据

Posted 2023-03-12

技术标签:

【中文标题】为一列中的值重塑数据【英文标题】：Reshape data for values in one column 【发布时间】：2011-12-26 23:43:07 【问题描述】：

我的 data.frame 看起来像这样

ID | test | test_result
1  |  B   |   10
2  |  A   |   9
3  |  A   |   11
4  |  C   |   7
5  |  F   |   5

我想得到这样的东西：

test | test_reult_ID1 | test_result_ID2 | test_result_ID3 ...
 A   |   NA           |     9           |   11
 B   |   10           |     NA          |   NA

它仅在少数情况下使用 reshape() 到宽格式，但对于整个数据框（大约 23.000 个 ID），reshape() 需要太长时间。 Melt() 和 cast() 确实重塑了数据，但将 test_result 中的值替换为测试的频率。任何其他想法如何管理这个？谢谢！

【问题讨论】：

***.com/a/9617424/210673 现在列出了执行此操作的各种方法。 【参考方案1】：

来自 reshape2 包的 dcast 这样做：

require(reshape2)
dcast(data, test ~ ID , value_var = 'test_result' )

#  test  1  2  3  4  5
#1    A NA  9 11 NA NA
#2    B 10 NA NA NA NA
#3    C NA NA NA  7 NA
#4    F NA NA NA NA  5

【讨论】：

我刚刚用整个 data.frame 进行了尝试，它给了我这个错误消息：Aggregation function missing: defaulting to length 并且再次只有频率而不是值。但是只有几行在工作中。你知道为什么吗？ @Elisa 当您的dcast 参数在结果的每个单元格中产生多个值时，就会发生这种情况。如果发生这种情况，则需要进行某种聚合，默认函数是计数。您的数据中是否有重复值？无论如何，也许可以尝试mean 作为聚合函数。 @Andrie：聚合函数会停止错误，但显然mean 不起作用，因为：argument is not numeric or logical: returning NA 是否有像“只返回值”这样的聚合函数？你的问题是要返回的值不止一个，所以你需要找到一个函数，将多个值折叠成一个值。如果您的数据属于character 类，或许可以考虑使用paste？解决了这个问题：问题是一个 ID 出于某种原因有三行而不是两行。然后，duplicated() 解决了这个问题。【参考方案2】：

在base R 中使用reshape 函数的另一种解决方案。

reshape(mydf, direction = 'wide', idvar = 'test', timevar = 'ID', 
  v.names = 'test_result', sep = "_")

编辑。我看到您已经尝试过reshape，但时间太长了。您能否提供有关您的实际数据的更多详细信息？

【讨论】：

我的原始数据有这三列和大约 23000 行。每两行都有相同的 ID（一个人解决了两个测试，例如 A 和 F，因此有两个结果和两行）。这可能是问题所在？

以上是关于为一列中的值重塑数据的主要内容，如果未能解决你的问题，请参考以下文章