相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)
Posted 衾许°
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)相关的知识,希望对你有一定的参考价值。
0.前言
一开始学这里的时候我感觉真的完犊子了,因为这部分的内容涉及到了概率论和数理统计的东西,概率论和数理统计虽然我现在在学,但我学的一团糟,翻书也毫无头绪,完了,现在就写一写自己怎么学的这两个系数,关于这些系数有什么用,怎么算,两个方面。
1.回顾概率论与数理统计的一些知识点
首先是关于总体均值和总体协方差的计算,公式贴出来。
至于有什么用?都懂均值啥意思吧?先说说协方差吧
直观理解协方差: 如果 X 、 Y 变化方向相同,即当 X 大于(小于)其均值时, Y 也大于(小于)其均值,在这两种情况下,乘积为正。如果 X 、 Y 的变化方向一直保持相同,则协方差为正;同理,如果 X 、 Y 变化方向一直相反,则协方差为负;如果 X 、 Y 变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。
3.Pearson相关系数
接着就是这个Pearson相关系数的公式了
3.1.总体皮尔逊Pearson相关系数
皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将 X 和 Y 标准化后的协方差。
3.2.样本皮尔逊Pearson相关系数
麻了...看到这里头都大了,一个总体person相关系数,一个样本person相关系数,都有啥用?为啥要分总体和样本呢?
首先我们要了解总体和样本的概念:
总体指的是考察对象的全部个体,我们也总是希望得到总体数据的一些特征(均值方差之类的)
样本指的是从总体中抽取的一部分个体
知道了概念,我们了解到样本数据相当于是总体数据的一个子集,当总体过大时,数据的处理将会变得异常困难,这时候样本数据将会起到一个节省数据处理成本的一个作用。
例如使用 样本均值 、 样本标准差 来估计 总体的均值(平均 水平)和总体的标准差(偏离程度) 。
一个总体person相关系数,一个样本person相关系数,那都有啥用?问题又回到了这里,这些细小的差距,使用上需要注意什么?
我们看下面这一组的散点图,上面数字为相关系数的值
可以看出,相关系数越靠近1或-1则导致了图像越是一个正相关与负相关的图像
我们再看下面一组图
可以看出异常点对于person相关系数的影响是巨大的
通过这两个图我们可以得出一个结论:
这里的相关系数只是用来衡量两个变量线性相关程度的指标;
也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能 告诉你他俩相关程度如何。
4.样本散点图绘制
4.1例题1
4.1.1要算person相关系数要先算描述性指标作出描述性统计的表格
一般计算描述性指标有三种方法:Excel,MTALAB,SPSS
这里就只介绍MATLAB和SPSS的方法
- MIN = min(Test); % 每一列的最小值
- MAX = max(Test); % 每一列的最大值
- MEAN = mean(Test); % 每一列的均值
- MEDIAN = median(Test); %每一列的中位数
- SKEWNESS = skewness(Test); %每一列的偏度
- KURTOSIS = kurtosis(Test); %每一列的峰度
- STD = std(Test); % 每一列的标准差
- RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD] %将这些统计量放到一个矩阵中表示
执行后就可以得到一个描述性统计的表格,后续可到Excel中进行精简处理
0.1350 0.0160 1.4500 0.0078 0.0520 0.0005
0.1710 0.0650 3.2720 0.0150 0.2050 0.0175
0.1560 0.0468 2.3332 0.0108 0.1668 0.0095
0.1570 0.0470 2.3910 0.0107 0.1670 0.0096
-0.0003 -0.0004 -0.0003 0.0007 -0.0008 -0.0002
0.0027 0.0094 0.0028 0.0033 0.0084 0.0028
0.0074 0.0050 0.3504 0.0013 0.0168 0.0029
而SPSS则没这么复杂,通过分析->描述统计->描述
4.1.2散点图绘制
将指标移入后直接确定,出图:
啊这...这散点图看得我头皮疼,这有什么用,好像也看不出有没有线性关系,但不管了,先做吧..
4.1.3person相关系数计算
- R = corrcoef(Test) % correlation coefficient
执行后可得一个相关系数表格,可在Excel中进行后续的美化
1.0000 0.0665 -0.2177 -0.1920 0.0440 0.0951
0.0665 1.0000 0.0954 0.0685 0.0279 -0.0161
-0.2177 0.0954 1.0000 0.2898 0.0248 -0.0749
-0.1920 0.0685 0.2898 1.0000 -0.0587 -0.0019
0.0440 0.0279 0.0248 -0.0587 1.0000 -0.0174
0.0951 -0.0161 -0.0749 -0.0019 -0.0174 1.0000
先到这吧..
以上是关于相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)的主要内容,如果未能解决你的问题,请参考以下文章
相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第二部分)
相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)
相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第一部分)
相关性Correlations 皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)