R语言相关性检验函数2021.3.11

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言相关性检验函数2021.3.11相关的知识,希望对你有一定的参考价值。

参考技术A 得出相关系数我们并不一定能得出数据之间的相关水平,这时候我们会进行相关性检验来进行量化。
置信区间:confidence interval,是指由由样本统计量所构成的总体参数的估计区间。在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度。简单来说就是只有概率还不行,还得知道概率发生的范围。例如,如果在一次大选中某人的支持率为55%,而置信水平0.95以上的置信区间是(50%,60%),那么他的真实支持率有百分之九十五的机率,落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之5。

cor.test函数每次只能检测一组变量。它有四个重要的参数,x和y是需要检测的相关性的变量,alternative参数指明是进行两边检验(two.sided)或正相关检验(greater)或负相关检验(less)。method参数选择算法(Pearson、Spearman、Kendall)

psych包中的corr.test可以一次性检验多组变量,可以递归计算整个数据集。

该函数不仅计算了相关系数,而且计算了相关性检验的值

偏相关

t检验适用于样本含量较小,总体方差未知的正态分布数据
UScrime数据集是美国七个州的刑罚制度对犯罪率影响的数据集。
t检验使用t.test()函数,格式为y~x,其中y是数值型变量,x是二分型变量。波浪线后面是分组变量,南方和北方分成两组,做了t检验。

如果想在多余两个组的数据中进行比较,数据符合正态分布我们就用方差分析,如果不符合正态分布则用非参数的方法。在相关性检验中,我们可以用参数方法和非参数 方法。统计分析方法包括参数检验和非参数检验,

R语言相关系数显著性检验及可视化的尝试


最近在练习R实现相关分析,不试一下不知道,用R去做一个相关系数矩阵以及显著性检验,还这么麻烦,输出的结果也并不能灵活的展示,如果和SPSS或JASP相比的话,的确不怎么方便。


案例数据:犯罪数据state.x77

后台回复【犯罪数据】下载案例数据自由练习。


R语言相关系数、显著性检验及可视化的尝试


犯罪率及相关指标共8个变量,现在小兵希望考察8个连续数据间的相关系数,并做显著性检验。


相关系数及显著性检验


使用R的Hmisc包中rcorr函数实现,建议不要使用R内置的cor函数。


library(Hmisc)mycor <- rcorr(state.x77)


相关系数矩阵和p值结果


R语言相关系数、显著性检验及可视化的尝试


此时相关系数和显著性p值的结果都有了,不过可视化程度较低。所以接下来我还需要找一个可视化的函数来帮忙。


这就是R,所有的事情都要用户自己来决定,包括使用哪个函数以及何种展示效果。


好吧,我决定使用ggcorrplot包的函数实现相关系数可视化。


library(ggcorrplot)ggcorrplot(mycor$r, hc.order = TRUE, type = "lower", lab = TRUE)


可视化结果



这个还不错的吧。红色表示正相关,蓝色表示负相关,颜色的深浅代表相关程度的大小。


本文完

文/图=数据小兵


历史文章 ↓