R语言-----数据分析2

Posted 三只产品数据汪1

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言-----数据分析2相关的知识,希望对你有一定的参考价值。

关于R语言数据分析,上篇文章,我们已经讲了数据探索,本章讲数据缺失处理,日常我们碰到的数据都会含有一些问题,对于这些问题,我们有如下处理策略:

  • 将含有缺失值的案例剔除

  • 根据变量之间的相关关系填补缺失值

  • 根据案例之间的相似性填补缺失值

  • 使用能够处理缺失值数据的工具

将缺失部分剔除

当这些记录所占的比例在可用数据集中非常小的时候,这个选择比较合理。

> algae[!complete.cases(algae),] ##显示含有缺失值的记录

> NROW(algae[!complete.cases(algae),])  ##含有缺失值的记录行数

> algae<-na.omit(algae) ##删除这16个记录

当然你也可以选择只删除某一行,例如删除62行和199行,输入如下命令:

> algae<-algae[-c(62,199)]

complete.case()可用来识别矩阵或数据框中没有缺失值的行

前面加了!,是逻辑值。计算有缺失值的行数

> apply(algae,1,function(x)sum(is.na(x)))  ##非常强大的函数

> manyNAs(algae,0.2) ##找出每一行中缺失值的个数大于一定比例的,采用manyNAs()函数##manyNAs()中默认的比例值为0.2

R语言-----数据分析2

用中心趋势值来填补缺失值:

先大体看看数据分布的状态,之后进行填补。

若数据服从正态分布:选用平均值填充,

如下,用mean()函数,就可以实现用平均值填充

若数据服从偏态分布:采用中位数填补缺失值

如下,用median()函数,实现中位数填充

根据变量之间的相关关系填补缺失值

根据案例之间的相似性填补缺失值

这两部分交给各位下去了解。

如上~~


以上是关于R语言-----数据分析2的主要内容,如果未能解决你的问题,请参考以下文章

R语言诊断试验数据处理与ROC分析实战案例2

R语言基本数据分析

R语言数据对象与运算

R语言-----数据分析2

R电子书资料《学习R》+《R语言实战第2版》+《R数据科学》学习推荐

R语言PCA主成分分析(Principle Component Analysis)实战2