R语言重要数据集分析研究——需要整理分析阐明理念

Posted 方舟

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言重要数据集分析研究——需要整理分析阐明理念相关的知识,希望对你有一定的参考价值。

1.R语言重要数据集分析研究需要整理分析阐明理念?

上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析。

统计量,即统计学里面关注的数据集的几个指标,常用的如下:最小值,最大值,四分位数,均值,中位数,众数,方差,标准差,极差,偏度,峰度

先来解释一下各个量得含义,浅显就不说了,这里主要说一下不常见的

众数:出现次数最多的

方差:每个样本值与均值的差得平方和的平均数

标准差:又称均方差,是方差的二次方根,用来衡量一个数据集的集中性

极差:最大值与最小值只差

偏度:相对于正态分布而言如果波峰出现在左边,就表明长尾出现在右边,成为右偏态(正偏态)偏度值>0,分布反之为左偏太(负偏态)偏度值<0

峰度:也是相对于正太分布的,正态分布的峰度为3,如果峰度>3图形越胖,越矮,称为厚尾,峰度<3 图形越瘦,越高,称为瘦尾

 

本节数据集:

我们采用MASS包的Insurance数据集,该数据集为某保险公司的车险数据。

"District"  "Group"    "Age"      "Holders"  "Claims" 

按列一次表示:家庭住址区域,投保汽车排量,投保人年龄,投保人数量,要求索赔的数量

安装包与加载数据集:

install.pacakges(\'MASS\') # 安装包

library(MASS) #加载包

data(Insurance) # 加载数据集

ins <- Insurance #拷贝一份数据

R语言重要数据集分析研究需要整理分析阐明理念?

上一节讲了R语言作图,本节来讲讲当你拿到一个数据集的时候如何下手分析,数据分析的第一步,探索性数据分析。

统计量,即统计学里面关注的数据集的几个指标,常用的如下:最小值,最大值,四分位数,均值,中位数,众数,方差,标准差,极差,偏度,峰度

先来解释一下各个量得含义,浅显就不说了,这里主要说一下不常见的

众数:出现次数最多的

方差:每个样本值与均值的差得平方和的平均数

标准差:又称均方差,是方差的二次方根,用来衡量一个数据集的集中性

极差:最大值与最小值只差

偏度:相对于正态分布而言如果波峰出现在左边,就表明长尾出现在右边,成为右偏态(正偏态)偏度值>0,分布反之为左偏太(负偏态)偏度值<0

峰度:也是相对于正太分布的,正态分布的峰度为3,如果峰度>3图形越胖,越矮,称为厚尾,峰度<3 图形越瘦,越高,称为瘦尾

 

本节数据集:

我们采用MASS包的Insurance数据集,该数据集为某保险公司的车险数据。

"District"  "Group"    "Age"      "Holders"  "Claims" 

按列一次表示:家庭住址区域,投保汽车排量,投保人年龄,投保人数量,要求索赔的数量

安装包与加载数据集:

install.pacakges(\'MASS\') # 安装包

library(MASS) #加载包

data(Insurance) # 加载数据集

ins <- Insurance #拷贝一份数据

 

2.R语言统计分析技术研究主要成分分析技术的分类和技巧?

  • 什么是主成分分析

主成分分析(PrincipalComponent Analysis,PCA), 是将多指标化成少数几个综合指标的一种综合统计方法。主成分分析方法通过降维技术把多个变量化为少数几个主成分的方法,并且这些主成分保留原始变量的绝大部分信息,通常表现为原始变量的线性组合。通过主成分分析我们能够有效利用大量数据进行定量分析,并揭示变量之间的内在关系。

  • 如何解释主成分分析

(1)       我们知道主成分分析是将原来的变量指标进行重新组合的新的综合指标,我们的目的就是要来选择尽可能少的主成分。我们以第一主成分Y1为例,如果在所有的线性组合中Y1的方差最大,,那么它所包含的信息最多。如果第一主成分不足以代表所有的信息,我们再考虑第二主成分,并要求第一主成分Y1已有的信息不出现在第二主成分Y2 中,即两个主成分不相关。

(2)       我们的选择主成分的标准是找到关于x的线性函数,并使相应的方差达到最大,且这些主成分的综合解释能力要在80%以上。

注:关于主成分的推导过程较为晦涩,此文着重讲述R语言的实现过程,有兴趣推导的可以加私信回复。

  • 主成分的分析过程
    • 多元统计分析及R语言建模(第四版)
    • 编辑 锁定
    • 本词条缺少信息栏名片图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧!

本书是在我社2010年出版的《管理运筹学(第四版)》的基础上修订而成的,为高等院校管理专本书是在《多元统计分析及R语言建模》(第三版)的基础上修订而成的,系统论述多元统计分析的基本理论和方法并结合R语言分析运算,力求理论与实际应用并重,具有基本统计知识的读者就可阅读本书。本书旨在介绍多元统计分析的基础知识、基本理论及其软件应用。本书主要内容是:多元统计分析概述、多元数据的数学表达、多元数据图示法、多元线性相关与回归分析、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析和综合评价方法等。所有数据都使用R语言进行分析。对一些基本定理给出了必要而简明的数学推导,又注重数据分析方法的多样性,对各方法从背景、程序的使用、计算步骤到应用技巧及各种方法之间的联系,都有较详细的阐述,包括近期的一些新发展,书中给出一些有启发性的案例和习题,书末附录给出了许多补充知识。

 

以上是关于R语言重要数据集分析研究——需要整理分析阐明理念的主要内容,如果未能解决你的问题,请参考以下文章

R语言重要数据集分析研究——搞清数据的由来

R语言对NASA元数据进行文本挖掘的主题建模分析

R语言splines包构建基于logistic回归的自然样条分析:南非心脏病数据集非线性:基函数展开和样条分析你简单分析的不重要特征,可能只是线性不显著而非线性是显著的

用R语言进行关联分析

R语言数据清理:视频游戏数据案例研究

R语言逻辑回归(Logistic Regression)回归决策树随机森林信用卡违约分析信贷数据集|附代码数据