《R语言实战》自学笔记22-数据整理
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《R语言实战》自学笔记22-数据整理相关的知识,希望对你有一定的参考价值。
参考技术A数据准备
向一个数值型向量中添加一个字符串会将此向量中的所有元素转换为字符型。
is.datatype()用于判断数据类型,返回值为TRUE或FALSE,常见类型包括数值型numeric、字符型character、逻辑型logical、数据框data.frame等。 as.datatype()可将数据类型进行转化。
查看数据类型:mode(), class(), typeof(), storage.mode()
逻辑值转换成数值时,TRUE转换成1,FALSE转换成0。
函数:order(x,decreasing=F,na.last=NA)
x是要排序的数据,可以是数据框也可以是向量,decreasing=F是默认升序,在排序变量前加一个减号可得到降序排序结果,na.last =NA表示将NA元素移到最后,否则,将NA放在第一个。
函数:cbind(A, B) ,不需要指定一个公共索引对数据框进行合并。
cbind:根据列进行合并,即叠加所有列,m列的矩阵与n列的矩阵cbind()最后变成m+n列,合并前提:cbind(a, c)中矩阵a、c的行数必需相符。
merge(A, B) :横向合并两个数据框(数据集),在多数情况下,两个数据框是通过一个或多个共有变量进行联结的(即一种内联结,inner join)。
rbind(A, B) :纵向合并两个数据框(数据集),两个数据框必须拥有相同的变量,不过它们的顺序不必一定相同。
rbind:根据行进行合并,就是行的叠加,m行的矩阵与n行的矩阵rbind()最后变成m+n行,合并前提:rbind(a, c)中矩阵a、c的列数必需相符。
函数:dataframe[row indices, column indices] dataframe为要索引的数据框,[]中,前面的是行,后面是列。
在某一列或行的下标之前加一个减号(-)就会剔除那一列或行。
subset(x, subset, select, drop = FALSE, ...)
x是要进行操作的数据框,subset是对数据的某些字段进行操作,select是选取要显示的字段。
sample(x, size, replace = FALSE, prob = NULL)
x表示所要抽样数据,size表示抽样元素个数,replace为T表示采取有重复的抽样,prob用于指定抽样的概率。
参考资料:
《R语言实战》自学笔记69-重抽样和自助法
参考技术A数据准备
许多实际情况中统计假设(假定观测数据抽样自正态分布或者其他性质较好的理论分布)并不一定满足,比如数据抽样于未知或混合分布、样本量过小、存在离群点、基于理论分布设计合适的统计检验过于复杂且数学上难以处理等情况,这时基于随机化和重抽样的统计方法就可派上用场。
置换检验的定义
置换检验(Permutation test),也称随机化检验或重随机化检验,是Fisher于20世纪30年代提出的一种基于大量计算(computationally intensive),利用样本数据的全(或随机)排列,进行统计推断的方法,因其对总体分布自由,应用较为广泛,特别适用于总体分布未知的小样本资料,以及某些难以用常规方法分析资料的假设检验问题。
置换检验的原理
1、提出原假设,比如XX处理后结果没有变化
2、计算统计量,如两组的均值之差,记作t0
3、将所有样本放在一起,然后随机排序进行分组,再计算其统计量t1
4、重复第3步骤,直至所有排序可能性都齐全(比如有A组有n样本,B组有m样本,则总重复次数相当于从n+m中随机抽取n个的次数),得到一系列的统计量(t1-tn)
5、最后将这些统计量按照从小到大排序,构成抽样分布,再看t0是否落在分布的置信区间内(如95%置信区间),这时候可计算一个P值(如果抽样总体1000次统计量中大于t0的有10个,则估计的P值为10/1000=0.01),落在置信区间外则拒绝原假设
6、如果第3步骤是将所有可能性都计算了的话,则是精确检验;如果只取了计算了部分组合,则是近似结果,这时一般用蒙特卡罗模拟(Monte Carlo simulation)的方法进行置换检验
7、置换检验和参数检验都计算了统计量,但是前者是跟置换观测数据后获得的经验分布进行比较,后者则是跟理论分布进行比较。
请牢记:置换检验都是使用伪随机数来从所有可能的排列组合中进行抽样(当做近似检验时)。因此,每次检验的结果都有所不同。
coin包提供了一个进行置换检验的一般性框架。通过该包,你可以回答如下问题。
响应值与组的分配独立吗?
两个数值变量独立吗?
两个类别型变量独立吗?
表12-2列出来的每个函数都是如下形式:
function_name(formula, data, distribution=)
其中:
formula描述的是要检验变量间的关系。示例可参见表12-2;
data是一个数据框;
distribution指定经验分布在零假设条件下的形式,可能值有exact,asymptotic和
approximate。
若distribution = "exact",那么在零假设条件下,分布的计算是精确的(即依据所有可能的排列组合)。当然,也可以根据它的渐进分布(distribution = "asymptotic")或蒙特卡洛重抽样(distribution = "approxiamate(B = #)")来做近似计算,其中#指所需重复的次数。
distribution = "exact"当前仅可用于两样本问题。
传统t检验表明存在显著性差异(p < 0.05),而精确检验却表明差异并不显著(p > 0.072)。
第7章我用自己的数据进行了t检验,对比一下传统t检验和置换检验,结果如下:
两种检验方式下结果都是显著的
Wilcoxon-Mann-Whitney U检验
coin包规定所有的类别型变量都必须以因子形式编码。
wilcox.test()默认计算的也是精确分布。
K样本检验的置换检验
通过chisq_test()或cmh_test()函数,我们可用置换检验判断两类别型变量的独立性。 当数据可根据第三个类别型变量进行分层时,需要使用后一个函数。若变量都是有序型,可使用lbl_test()函数来检验是否存在线性趋势。
卡方独立性检验
卡方独立性检验的置换检验
你可能会有疑问,为什么需要把变量Improved从一个有序因子变成一个分类因子?(好问题!)这是因为,如果你用有序因子,coin()将会生成一个线性与线性趋势检验,而不是卡方检验。
结果解读:两种检验下p值都是小于0.05,说明Treatment和Improved之间相互不独立
自己数据的演示
结果解读:p值均为1,表明nitrogen和variety相互独立。
spearman_test()函数提供了两数值变量的独立性置换检验。
当处于不同组的观测已经被分配得当,或者使用了重复测量时,样本相关检验便可派上用场。
对于两配对组的置换检验,可使用wilcoxsign_test()函数;多于两组时,使用friedman_test()函数。
自己数据演示
lmPerm包可做线性模型的置换检验。比如lmp()和aovp()函数即lm()和aov()函数的修改版,能够进行置换检验,而非正态理论检验。
lmp()和aovp()函数的参数与lm()和aov()函数类似,只额外添加了perm =参数。
perm =选项的可选值有"Exact"、"Prob"或"SPR"。Exact根据所有可能的排列组合生成精确检验。Prob从所有可能的排列中不断抽样,直至估计的标准差在估计的p值0.1之下,判停准则由可选的Ca参数控制。SPR使用贯序概率比检验来判断何时停止抽样。注意,若观测数大于10,perm = "Exact"将自动默认转为perm = "Prob",因为精确检验只适用于小样本问题。
简单线性回归的置换检验
R语言实战的例子:
多项式回归的置换检验
R语言实战的例子:
自己数据集的例子:
R语言实战的例子:
自己数据集的例子:
当两种方法所得结果不一致时,你需要更加谨慎地审视数据,这很可能是因为违反了正态性假设或者存在离群点。
R语言实战的例子:
自己数据集的例子:
R语言实战的例子:
自己数据集的例子:
R语言实战的例子:
自己数据集的例子:
值得注意的是,当将aovp()应用到方差分析设计中时,它默认使用唯一平方和法(SAS也称为类型III平方和)。每种效应都会依据其他效应做相应调整。R中默认的参数化方差分析设计使用的是序贯平方和(SAS是类型I平方和)。每种效应依据模型中先出现的效应做相应调整。对于平衡设计,两种方法结果相同,但是对于每个单元格观测数不同的不平衡设计,两种方法结果则不同。不平衡性越大,结果分歧越大。若在aovp()函数中设定seqs = TRUE,可以生成你想要的序贯平方和。
你可能已经注意到,基于正态理论的检验与上面置换检验的结果非常接近。在这些问题中数据表现非常好,两种方法结果的一致性也验证了正态理论方法适用于上述示例。
当然,置换检验真正发挥功用的地方是处理非正态数据(如分布偏倚很大)、存在离群点、样本很小或无法做参数检验等情况。不过,如果初始样本对感兴趣的总体情况代表性很差,即使是置换检验也无法提高推断效果。
置换检验主要用于生成检验零假设的p值,它有助于回答“效应是否存在”这样的问题。不过,置换方法对于获取置信区间和估计测量精度是比较困难的。幸运的是,这正是自助法大显神通的地方。
所谓自助法,即从初始样本重复随机替换抽样,生成一个或一系列待检验统计量的经验分布。 无需假设一个特定的理论分布,便可生成统计量的置信区间,并能检验统计假设。
倘若你假设均值的样本分布不是正态分布,该怎么办呢?可使用自助法。
(1)从样本中随机选择10个观测,抽样后再放回。有些观测可能会被选择多次,有些可能一直都不会被选中。
(2)计算并记录样本均值。
(3)重复1和2一千次。
(4)将1000个样本均值从小到大排序。
(5)找出样本均值2.5%和97.5%的分位点。此时即初始位置和最末位置的第25个数,它们就限定了95%的置信区间。
boot包扩展了自助法和重抽样的相关用途。你可以对一个统计量(如中位数)或一个统计量向量(如一列回归系数)使用自助法。
一般来说,自助法有三个主要步骤。
(1)写一个能返回待研究统计量值的函数。如果只有单个统计量(如中位数),函数应该返回一个数值;如果有一列统计量(如一列回归系数),函数应该返回一个向量。
(2)为生成R中自助法所需的有效统计量重复数,使用boot()函数对上面所写的函数进行处理。
(3)使用boot.ci()函数获取第(2)步生成的统计量的置信区间。
主要的自助法函数是boot(),它的格式为:
bootobject <- boot(data=, statistic=, R=, ...)
参数见下表:
boot()函数调用统计量函数R次,每次都从整数1:nrow(data)中生成一列有放回的随机指标,这些指标被统计量函数用来选择样本。统计量将根据所选样本进行计算,结果存储在bootobject中。
你可以用bootobject t0和bootobject t来获取这些元素。
一旦生成了自助样本,可通过print()和plot()来检查结果。如果结果看起来还算合理, 使用boot.ci()函数获取统计量的置信区间。格式如下:
boot.ci(bootobject, conf=, type= )
type参数设定了获取置信区间的方法。perc方法(分位数)展示的是样本均值,bca将根据偏差对区间做简单调整。
回归的R平方值
1000次自助抽样
输出结果
结果可视化
95%的置信区间获取
回归系数向量函数
自助抽样1000次
获得车重和发动机排量95%的置信区间
置换检验和自助法并不是万能的,它们无法将烂数据转化为好数据。当初始样本对于总体情况的代表性不佳,或者样本量过小而无法准确地反映总体情况,这些方法也是爱莫能助。
参考资料:
以上是关于《R语言实战》自学笔记22-数据整理的主要内容,如果未能解决你的问题,请参考以下文章