堆叠条形图将变量转换为ggplot2 R中不相关变量的基于存在缺失的百分比

Posted 2023-02-16

技术标签:

【中文标题】堆叠条形图将变量转换为ggplot2 R中不相关变量的基于存在缺失的百分比【英文标题】：stacked barplot converting a variable into a presence absence based percentage for unrelated variables in ggplot2 R 【发布时间】：2017-03-26 07:51:36 【问题描述】：

以下是示例数据框

df <- data.frame(SampleID = c(1, 2, 3, 4, 5, 6, 7, 8),
                 Var1 = c(0.1 , 0.5,    0.7,    0,  0,  0,  0.5,    0.2), 
                 Var1PA = c("Present", "Present", "Present", "Absent", "Absent", "Absent",  "Present", "Present"), 
                 Var2 = c(0, 0, 0, 0, 0.1, 0.5, 0.7, 0.2), 
                 Var2PA = c("Absent", "Absent", "Absent", "Absent", "Present", "Present", "Present", "Present"))

我的问题一开始看起来很简单，但我找不到合适的方法来编辑数据框以绘制条形图。

对于 Var1，我想绘制 var1 在样本中出现（即 var1 值 > 0）或不存在（var2 等类似）的次数百分比的堆积条形图。

我可以通过以下方式确定这个百分比：

(1 - sum(df$Var1 == 0) / length(df$Var1)) * 100

但是如何在绘图时将其转换为百分比？我查看了许多融化选项，但对于这些变量没有统一的标准来形成一个共同的 X 轴

最后，如果我想从包含 1000 个此类列变量的数据框中绘制 5 个变量，该如何回答上述问题？

编辑：感谢到目前为止的答案！我对这个问题稍作修改我刚刚在我的数据框中又添加了一个变量

df <- data.frame(SampleID = c(1, 2, 3, 4, 5, 6, 7, 8),
             Var1 = c(0.1 , 0.5,    0.7,    0,  0,  0,  0.5,    0.2), 
             Var1PA = c("Present", "Present", "Present", "Absent", "Absent", "Absent",  "Present", "Present"), 
             Var2 = c(0, 0, 0, 0, 0.1, 0.5, 0.7, 0.2), 
             Var2PA = c("Absent", "Absent", "Absent", "Absent", "Present", "Present", "Present", "Present"),
             Disease = c("Case", "Control", "Case", "Control", "Case", "Control", "Case", "Control"))

我正在尝试弄清楚如何为 Var1PA、Var2PA 等堆叠在其中的情况和控件绘制条形图。如果我有正确的数据框输入，ggplot2 代码将是： vars geom_bar(aes(fill = Var1), position = "stack", stat="identity") + facet_grid(~vars)

如何获取每个变量的案例（存在和不存在）和控制（存在和不存在）的百分比？谢谢！

【问题讨论】：

应该堆叠什么存在/缺席的百分比，谢谢！抱歉无法测试

vars &lt;- c('Var1PA', 'Var2PA', 'Var2PA'); tt &lt;- data.frame(prop.table(as.table(sapply(df[, vars], table)), 2) * 100); ggplot(tt, aes(Var2, Freq, fill = Var1)) + geom_bar(stat = 'identity')

一种有点老套的方式：

library(tidyverse) ; df %&gt;% gather(var, pa, ends_with('PA')) %&gt;% group_by(var) %&gt;% do(pa = names(table(.$pa)), pct = prop.table(table(.$pa)) * 100) %&gt;% unnest() %&gt;% ggplot(aes(var, pct, fill = pa)) + geom_bar(stat = 'identity')

@rawr 抱歉回复晚了谢谢你的回答，这对我帮助很大！如果我在我的 df 中添加另一个变量疾病，使用 prop.table 是否可以轻松地分别获取每个 var 中的案例（存在和不存在）和控制（存在和不存在）的百分比？ 【参考方案1】：

这应该很好地概括。当然，您可以对您选择的变量更有选择性。

library(dplyr)
library(tidyr)
mdf = df %>% select(SampleID, ends_with("PA")) %>%
    gather(key = Var, value = PA, -SampleID) %>%
    mutate(PA = factor(PA, levels = c("Present", "Absent")))

ggplot(mdf, aes(x = Var, fill = PA)) +
    geom_bar(position = "fill") +
    scale_y_continuous(labels = scales::percent)

您可以将百分比列添加到长数据框中：

mdf %>% group_by(Var) %>%
    mutate(p_present = mean(PA == "Present"),
           p_absent = mean(PA == "Absent"))
# Source: local data frame [16 x 5]
# Groups: Var [2]
# 
#    SampleID    Var      PA p_present p_absent
#       <dbl>  <chr>  <fctr>     <dbl>    <dbl>
# 1         1 Var1PA Present     0.625    0.375
# 2         2 Var1PA Present     0.625    0.375
# 3         3 Var1PA Present     0.625    0.375
# 4         4 Var1PA  Absent     0.625    0.375
# 5         5 Var1PA  Absent     0.625    0.375
# 6         6 Var1PA  Absent     0.625    0.375
# 7         7 Var1PA Present     0.625    0.375
# 8         8 Var1PA Present     0.625    0.375
# 9         1 Var2PA  Absent     0.500    0.500
# 10        2 Var2PA  Absent     0.500    0.500

或者，如果您希望看到每组 1 行的摘要，请将 mutate 替换为 summarize：

mdf %>% group_by(Var) %>%
    summarize(p_present = mean(PA == "Present"),
           p_absent = mean(PA == "Absent"))
# # A tibble: 2 × 3
#      Var p_present p_absent
#    <chr>     <dbl>    <dbl>
# 1 Var1PA     0.625    0.375
# 2 Var2PA     0.500    0.500

【讨论】：

您好，非常感谢您的回答，非常抱歉回复晚了。生活接管了..我尝试了您的解决方案，但是对我来说有点难以理解，因为收集和变异都是我以前没有使用过的新功能。此外，在您的回答中，我还想实际查看我正在绘制的最终表格（mdf）中的频率计数。我对问题进行了一些编辑，如果您对此有任何建议，请告诉我。我赞成你的回答..谢谢！ mutate 所做的只是创建新列，gather 或多或少等同于 melt。（gather 的功能略少，但语法更简单。）我将添加几行将百分比放入数据中。我在这里发布了一个新问题：***.com/questions/40859308/…。感谢您的宝贵时间！

以上是关于堆叠条形图将变量转换为ggplot2 R中不相关变量的基于存在缺失的百分比的主要内容，如果未能解决你的问题，请参考以下文章