如何使用R进行数据展现?且看使用iris数据可视化实例

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何使用R进行数据展现?且看使用iris数据可视化实例相关的知识,希望对你有一定的参考价值。

iris数据的详细介绍如下:


首先,要查看iris数据集的大小和结构,其维度和名称分别使用函数dim 和names获取,函数str 和attributes返回数据的结构和属性。


dim(iris)

names(iris)

str(iris)

attributes(iris)


接下来,查看数据的前五行,返回第一和最后一行,使用head和tail


iris[1:5,]

head(iris)

tail(iris)


还可以查找某一列的值:


例如,下面的两行代码可用来获取到Sepal.Length的前10个值。

iris[1:10, "Sepal.Length"]

iris$Sepal.Length[1:10]


每一个数值型变量的分布情况,可用函数summary进行查看。该函数的返回值是变量中的最小值、最大值、平均值、中位数、第一四分位数(25%)和第三四分位数(75%)。

对于因子(或分类变量)而言,函数返回的是每一个等级水平的频数。

summary(iris)


平均值、中位数和极差也可以分别使用函数mean、median和range获取,获取四分位数和百分位数可以使用quantile函数,代码如下所示:


quantile(iris$Sepal.Length)

quantile(iris$Sepal.Length, c(.1, .3, .65))


接下来,使用函数var查看Sepal.Length的方差,使用hist绘制分布直方图,使用函数density计算密度估计值。

var(iris$Sepal.Length)

hist(iris$Sepal.Length)

技术分享

密度图

plot(density(iris$Sepal.Length))

技术分享


饼图

因子的频数可以由函数table计算,然后使用函数pie绘制饼图,绘制条形图。或使用函数barplot绘制条形图。

table(iris$Species)

pie(table(iris$Species))

技术分享


条形图

barplot(table(iris$Species))

技术分享


查看了单个变量的分布后,还需要展现两个变量之间的关系。下面使用函数cov和cor 分别计算变量之间的协方差和相关系数。

cov(iris$Sepal.Length, iris$Petal.Length)

cov(iris[,1:4])

cor(iris$Sepal.Length, iris$Petal.Length)

cor(iris[,1:4])


接下来,使用函数aggregate计算每一个鸢尾花种(species)的sepal.Lellgth的统计数据。


aggregate(Sepal.Length ~ Species, summary, data=iris)


然后,使用函数boxplot绘制盒图(又称为盒形-虚线图),以展示数据分布的中位数、第一四分位数和第三四分位数(即累积分布中的位于50%、25%、75%位置上的点),以及离群点。


盒图中间的横线表示中位数。图示四分位差(IQR),即第三四分位数(75%)与第一四分位数(25%)的差值。

boxplot(Sepal.Length~Species, data=iris)

技术分享


本文出自 “中科院计算所培训” 博客,谢绝转载!

以上是关于如何使用R进行数据展现?且看使用iris数据可视化实例的主要内容,如果未能解决你的问题,请参考以下文章

R包介绍系列-适用于回归模型可视化的visreg包

R语言基于自定义函数构建xgboost模型并使用LIME解释器进行模型预测结果解释:基于训练数据以及模型构建LIME解释器解释多个iris数据样本的预测结果使用LIME解释器进行模型预测结果解释

如何在R语言中进行神经网络模型的建立

R语言专题,如何使用party包构建决策树?

如何将数据进行数据可视化展现

数据可视化应用数据统计分析的显著性标注(附Python和R语言代码)