相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第一部分)

Posted 衾许°

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第一部分)相关的知识,希望对你有一定的参考价值。

0.前言

一开始学这里的时候我感觉真的完犊子了,因为这部分的内容涉及到了概率论和数理统计的东西,概率论和数理统计虽然我现在在学,但我学的一团糟,翻书也毫无头绪,完了,现在就写一写自己怎么学的这两个系数,关于这些系数有什么用怎么算,两个方面。

1.回顾概率论与数理统计的一些知识点

首先是关于总体均值和总体协方差的计算,公式贴出来。

至于有什么用?都懂均值啥意思吧?先说说协方差吧

直观理解协方差: 如果 X Y 变化方向相同,即当 X 大于(小于)其均值时, Y 大于(小于)其均值,在这两种情况下,乘积为。如果 X Y 的变化方向一直 保持相同,则协方差为正;同理,如果 X Y 变化方向一直相反,则协方差为 如果 X Y 变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么 累加后正负抵消。

3.Pearson相关系数

接着就是这个Pearson相关系数的公式了

3.1.总体皮尔逊Pearson相关系数

皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将 X Y 标准化后的协方差。

3.2.样本皮尔逊Pearson相关系数

 麻了...看到这里头都大了,一个总体person相关系数,一个样本person相关系数,都有啥用?为啥要分总体和样本呢?

首先我们要了解总体和样本的概念:

总体指的是考察对象的全部个体,我们也总是希望得到总体数据的一些特征(均值方差之类的)

样本指的是从总体中抽取的一部分个体

 知道了概念,我们了解到样本数据相当于是总体数据的一个子集,当总体过大时,数据的处理将会变得异常困难,这时候样本数据将会起到一个节省数据处理成本的一个作用。

例如使用 样本均值 样本标准差 来估计 总体的均值(平均 水平)和总体的标准差(偏离程度)

 一个总体person相关系数,一个样本person相关系数,那都有啥用?问题又回到了这里,这些细小的差距,使用上需要注意什么?

 我们看下面这一组的散点图,上面数字为相关系数的值

可以看出,相关系数越靠近1或-1则导致了图像越是一个正相关与负相关的图像

我们再看下面一组图

可以看出异常点对于person相关系数的影响是巨大的 

通过这两个图我们可以得出一个结论:

这里的相关系数只是用来衡量两个变量线性相关程度的指标;

也就是说,你必须先确认这两个变量是线性相关的,然后这个相关系数才能 告诉你他俩相关程度如何。
讲人话就是:先画散点图,再BB相关系数 那怎么画图? 来点小例题吧..

4.样本散点图绘制

 4.1例题1

4.1.1要算person相关系数要先算描述性指标作出描述性统计的表格

 一般计算描述性指标有三种方法:Excel,MTALAB,SPSS

这里就只介绍MATLAB和SPSS的方法

  • MIN = min(Test);  % 每一列的最小值
  • MAX = max(Test);   % 每一列的最大值
  • MEAN = mean(Test);  % 每一列的均值
  • MEDIAN = median(Test);  %每一列的中位数
  • SKEWNESS = skewness(Test); %每一列的偏度
  • KURTOSIS = kurtosis(Test);  %每一列的峰度
  • STD = std(Test);  % 每一列的标准差
  • RESULT = [MIN;MAX;MEAN;MEDIAN;SKEWNESS;KURTOSIS;STD]  %将这些统计量放到一个矩阵中表示

执行后就可以得到一个描述性统计的表格,后续可到Excel中进行精简处理

    0.1350    0.0160    1.4500    0.0078    0.0520    0.0005
    0.1710    0.0650    3.2720    0.0150    0.2050    0.0175
    0.1560    0.0468    2.3332    0.0108    0.1668    0.0095
    0.1570    0.0470    2.3910    0.0107    0.1670    0.0096
   -0.0003   -0.0004   -0.0003    0.0007   -0.0008   -0.0002
    0.0027    0.0094    0.0028    0.0033    0.0084    0.0028
    0.0074    0.0050    0.3504    0.0013    0.0168    0.0029

 而SPSS则没这么复杂,通过分析->描述统计->描述

4.1.2散点图绘制

在计算皮尔逊相关系数之前 , 一定要做出散点图来看两组变量之间是否有线性关系 这里使用 Spss 比较方便 图形 旧对话框 散点图/点图 矩阵散点图

 

 将指标移入后直接确定,出图:

 啊这...这散点图看得我头皮疼,这有什么用,好像也看不出有没有线性关系,但不管了,先做吧..

4.1.3person相关系数计算

  • R = corrcoef(Test)   % correlation coefficient

执行后可得一个相关系数表格,可在Excel中进行后续的美化

   1.0000    0.0665   -0.2177   -0.1920    0.0440    0.0951
    0.0665    1.0000    0.0954    0.0685    0.0279   -0.0161
   -0.2177    0.0954    1.0000    0.2898    0.0248   -0.0749
   -0.1920    0.0685    0.2898    1.0000   -0.0587   -0.0019
    0.0440    0.0279    0.0248   -0.0587    1.0000   -0.0174
    0.0951   -0.0161   -0.0749   -0.0019   -0.0174    1.0000        

 先到这吧..

以上是关于相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第一部分)的主要内容,如果未能解决你的问题,请参考以下文章

相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第二部分)

相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)

相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第一部分)

相关性Correlations 皮尔逊相关系数(pearson)和斯皮尔曼等级相关系数(spearman)

数学建模:相关性分析学习——皮尔逊(pearson)相关系数与斯皮尔曼(spearman)相关系数

如何理解皮尔逊相关系数