MapReduce-皮尔逊(Pearson)线性相关
Posted xiashiwendao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MapReduce-皮尔逊(Pearson)线性相关相关的知识,希望对你有一定的参考价值。
Pearson相关系数解决了两个群的数据是否线性相关的问题;
先补充一下基本概念:
协方差:如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
如果X与Y是统计独立的,那么二者之间的协方差就是0,因为两个独立的随机变量满足E[XY]=E[X]E[Y]。但是,反过来并不成立。即如果X与Y的协方差为0,二者并不一定是统计独立的。
协方差为0的两个随机变量称为是不相关的。
标准差:标准差反应的是个体间(单个变量)的离散程度;
总体相关系数,公式见下方,是由协方差和标准方差计算得来;协方差用于衡量两个变量的总体误差,如果两个变量的变化趋势一致(比如都是大于期望值),则为正值,如果两个变量变化相反(一个大于期望值,一个小于期望值),则为负值;
估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母r代表:
r亦可由样本点的标准分数均值估计,得到与上式等价的表达式:
以上是关于MapReduce-皮尔逊(Pearson)线性相关的主要内容,如果未能解决你的问题,请参考以下文章
皮尔逊相关系数(Pearson Correlation Coefficient, Pearson's r)
相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第二部分)
相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第二部分)
相关系数之皮尔逊pearson相关系数和斯皮尔曼spearman等级相关系数(评价线性关系的相关系数)(第二部分)