数学笔记:pearson correlation coefficient VS spearman correlation coefficient
Posted UQI-LIUWJ
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数学笔记:pearson correlation coefficient VS spearman correlation coefficient相关的知识,希望对你有一定的参考价值。
1 correlation 相关性
相关性是两个变量线性相关的程度。 这是双变量数据分析的重要步骤。
相关性并不意味着因果关系!
让我们通过两个例子来了解它的实际含义。
- 夏季,冰淇淋的消费量会增加。
- ——>气候(或者说是季节)和 冰淇淋的销售额之间存在很强的相关性。
- 在这个特殊的例子中,我们看到存在因果关系,因为极端的夏季确实推动了冰淇淋的销售。
- 冰淇淋的销售或许与鲨鱼袭击有很强的相关性。
- ——>现在我们可以在这里非常清楚地看到,鲨鱼袭击绝对不是因为冰淇淋造成的。 所以,这里没有因果关系。
1.1 相关系数
相关系数是对两个变量的相关性强度的统计量度。 值范围在 -1.0 和 1.0 之间。
- -1.0 的相关性表示完全的负相关,
- 1.0 的相关性表示完全的正相关。
- 0.0 的相关性表明两个变量的之间没有线性关系。
2 Pearson Correlation Coefficient
NTU 课程笔记: CV6422 regression_UQI-LIUWJ的博客-CSDN博客
在统计学中,皮尔逊相关系数也称为皮尔逊 r 或双变量相关性,是衡量两个变量 X 和 Y 之间线性相关性的统计量。它的值介于 +1 和 -1 之间。 +1 的值是总正线性相关,0 是非线性相关,-1 是总负线性相关。
下图是皮尔逊相关系数 在变量之间相关性 方向&强度 不同时 的不同情况
3 Spearman Correlation Coefficient
NTU 课程笔记:Nonparametric statistics_UQI-LIUWJ的博客-CSDN博客
在统计学中, Spearman相关系数或 Spearman ρ 是rank相关性的非参数度量(两个变量的rank之间的统计相关性)。 它评估使用单调函数可以描述两个变量之间的关系的程度。
我们不难发现二者的区别,spearman这里强调的时“单调”,也就是增幅不同也不要紧,只要两个同增同减即可(比如下面的左图和中图)
4 二者的区别
两个相关系数之间的根本区别在于,Pearson系数适用于两个变量之间的线性关系,而Spearman系数适用于单调关系。
因此,如果我们觉得散点图在视觉上表明“可能是单调的,可能是线性的”关系,我们最好的选择是应用 Spearman 而不是 Pearson。 即使数据证明是完全线性的,切换到 Spearman 也不会造成任何伤害。 但是,如果它不是完全线性的并且我们使用 Pearson 系数,那么我们将错过 Spearman 可以捕获的“单调”信息。
下面举几个例子,就能很好地说明了:
——>正好是完全的线性
spearman 可以体现正向单调性;pearson可以体现有较强的正线性
杂乱无章,二者都体现不出任何的特征
——>正好是完全的负线性,所以使用哪个都可以
spearman 可以体现负向单调性;pearson可以体现有较强的负线性
以上是关于数学笔记:pearson correlation coefficient VS spearman correlation coefficient的主要内容,如果未能解决你的问题,请参考以下文章
python 使用Pearson Correlation Heatmap绘制相关矩阵
SciKit Learn R-squared 与 Pearson's Correlation R 的平方非常不同
[Statistics] Comparison of Three Correlation Coefficients: Pearson, Kendall, Spearman
当分布 非正态分布时,能否使用Pearson Correlation?
皮尔逊相关系数与余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)