【小工具】python 携手R 计算两组数据相关性
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【小工具】python 携手R 计算两组数据相关性相关的知识,希望对你有一定的参考价值。
参考技术A 假如你有两个表格:每个表格中有至少两列或者好多列,如下图例子中用到的表格只有3列,以空格分隔,第一列是名称,第二列是观察值,第三列也是观测值。你想根据两个文件中共有的某一列的值算相关性:
首先根据两个文件中共同列求交集,然后输出交集部分的指定列的信息。
比如,两个文件中都有第一列的信息,然后输出第一个文件中第三列,和第二个文件中第三列的信息。
输出文件为一个新生成的表格。
该表格具有三列:
第一列为两个文件中共有列的共有数据;
第二列和第三列分别是来自第一个文件中指定列和第二个文件中的指定列。
然后用第二个脚本(R脚本)画相关性图:
画相关性的脚本也支持将数据取对数log或者非log形式:
基本参数 -a -b,两个输入文件,必须加
选择性参数:这些参数都有默认值,看清楚即可。
-ka,-kb 表示a文件的key列,b文件的key列,就是共有列,要以这两列为key去提取。
-va,-vb 表示a文件的value列,b文件的value列,就是你要比较的数据的值所在的列,可以使数字类型,也可以是字符串类型的值。
-sa,-sb 表示a文件的分割符,b文件的分隔符。
-headera,-headerb 加了哪个表示那个文件有header,不加表示没有header。
-f [布尔类型] 表示是否计算数值占总体的比例,默认False不计算。
-u [布尔类型] 表示输出key列的并集(合集),默认不加-u参数。
1)美化图片,配色,线条需要美化一下下。
2)偏离点如何查看,什么意义?
*20200501:支持以“comma”,“,”分割的文件,只需在参数-sa或-sb中设置comma即可
该脚本已经发展成为了根据两个文件中共有的某一列来提取相关信息的脚本。
这两个脚本在个人的项目中非常实用。经常用来做相关性图,因此写成通用工具更加方便。
当然如果你已经有了第一步结果的表格,直接用第二个R脚本画图即可。
python脚本使用的全部为python内置的包,无需安装其他包,测试使用的是python 2.7及python3中都适用。
R脚本需要安装ggplot2. 测试使用的R版本为 3.5.1
需要脚本的点赞并私信我哦。
R语言应用实战-基于R语言的典型相关分析
一.基本概念和原理
典型相关分析中,当一组变量仅有两个时,可用简单相关系数衡量;当考察一组时,可用复相关进行衡量。大量的实际问题需要我们把指标之间的联系扩展到两组随机变量之间的相互依赖关系。典型相关关系就是为了解决此类问题而提出的多变量统计分析方法。它实际上是利用主成分的思想来讨论两组随机变量的相关性问题,把两组变量间的相关性研究化为少数几对变量间的相关性研究,而且这少数几对变量之间又是不相关的,以此来达到化解复杂相关关系的目的。
以下是我为大家准备的几个精品专栏,喜欢的小伙伴可自行订阅,你的支持就是我不断更新的动力哟!
二.分析原理
典型相关分析是研究两组变量之间的相关关系的一种多变量统计分析方法,它可以真正反映两组变量之间的相互依赖的线性关系。设两组变量 用x1,x2....xp及y1,y2...yp表示,采用类似主成分分析的方法,在每组变量中选择若干个有代表性的综合指标(变量的线性组合),通过研究两组综合指标之间的关系来反映两组变量之间的关系。
以上是关于【小工具】python 携手R 计算两组数据相关性的主要内容,如果未能解决你的问题,请参考以下文章
pandas通过皮尔逊积矩线性相关系数(Pearson's r)计算数据相关性