使用 dplyr 计算分组数据中相关性的显着性

Posted

技术标签:

【中文标题】使用 dplyr 计算分组数据中相关性的显着性【英文标题】:Calculate significance of correlation in grouped data with dplyr 【发布时间】:2020-05-22 08:46:59 【问题描述】:

我已经对数据进行了分组,我想测试几个基本的推理统计数据。

library(tidyverse)

df <- data.frame(x=runif(50, min = 0, max = 25),y=runif(50, min = 10, max = 25), group=rep(0:1,25))

df %>%
  group_by(group) %>%
  summarize(cor(x,y))

在这里我可以很容易地得到相关性,但我还需要检查它的统计意义。不幸的是,cor.test 之类的选项在 dyplr 中不起作用。有没有简单的解决方法?

【问题讨论】:

您也可以为群组申请cor.test。你需要什么 ?例如df %&gt;% group_by(group) %&gt;% summarize(test = cor.test(x,y)$p.value) 【参考方案1】:

这就是你想要的吗?

df %>%
    group_by(group) %>%
    summarize(cor.test(x,y)[["p.value"]])

问题是cor.test() 返回一个列表而不是单个值,因此您需要从列表中选择您感兴趣的元素。

【讨论】:

以上是关于使用 dplyr 计算分组数据中相关性的显着性的主要内容,如果未能解决你的问题,请参考以下文章

将带 ** 的显着性水平括号添加到分组箱线图中; ggplot

使用 ggplot2 将显着性级别添加到矩阵相关热图

在 Python 中,如何计算两个数据数组之间的相关性和统计显着性?

您如何测试回归估计参数(拟合数据)的显着性?

scikit learn:如何检查系数的显着性

在 Python 中计算 Pearson 相关性和显着性