《R语言实战》自学笔记5-数据框
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《R语言实战》自学笔记5-数据框相关的知识,希望对你有一定的参考价值。
参考技术A 数据框(data.frame)是R中最常处理的数据结构。
函数:data.frame(col1,col2,col3,....,row.name=NULL, check.rows = FALSE, check.names=TRUE, stringsAsFactors = default.stringsAsFactors())
其中的列向量col1, col2, col3,...可为任何类型(如字符型、数值型或逻辑型),每一列的名称可由函数names指定;
row.name用于指定各行(样本)的名称,默认没有名称,使用从1开始自增的序列来标识每一行;
check.rows用于用来检查行的名称和数量是否一致,默认为FALSE;
check.names来检查变量(列)的名称是否唯一且符合语法,默认为TRUE;
stringsAsFactors用来描述是否将字符型向量自动转换为因子,默认转换,若不改变的话使用stringsAsFactors = FALSE来指定即可。
每一列数据的模式必须唯一,不过你却可以将多个模式的不同列放到一起组成数据框。
先构建向量,再组成数据框。
直接用data.frame函数构建数据框。
R语言的下标索引是从1开始的,且下标索引为负数的话表示删除某个元素。
[] 可进行索引,括号内对应的是[行下标, 列下标]。
[1] 1 2 3 4 5 6 7 8
[1] "four"
[1] 1 2 3 4 5 6 7 8
[1] "four"
[1] 1 2 3 4 5 6 7 8
[1] "one" "two" "three"
attach、detach和with()
函数attach()可将数据框添加到R的搜索路径中。
函数detach()将数据框从搜索路径中移除。
函数attach()和detach()最好在你分析一个单独的数据框,并且不太可能有多个同名对象时使用。
with()就是把所有操作都限制在数据框上。
The following objects are masked by .GlobalEnv:
[1] 1 2 3 4 5 6 7 8
[1] "n1" "n2" "n3" "n4" "n5" "n6" "n7" "n8"
[1] 8
[1] 3
[1] 8
[1] "name" "values" "values2"
[1] "r1" "r2" "r3" "r4" "r5" "r6" "r7" "r8"
[1] 8 3
[1] "data.frame"
[1] "numeric"
[1] "character"
Length:8 Min. :1.00 Min. :1.00
Class :character 1st Qu.:2.75 1st Qu.:2.75
Mode :character Median :4.50 Median :4.50
Mean :4.50 Mean :4.50
3rd Qu.:6.25 3rd Qu.:6.25
Max. :8.00 Max. :8.00
[1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
R语言自学笔记-2内置数据集
参考技术A #b站视频——R语言入门与数据分析#内置数据集
#固定格式的数据(矩阵、数据框或一个时间序列等)
#统计建模、回归分析等试验需要找合适的数据集
#R内置数据集,存储在,通过
help(package="datasets")
#通过data函数访问这些数据集
data()
#得到新窗口 前面:数据集名字 后面:内容
#包含R所有用到的数据类型,包括:向量、矩阵、列表、因子、数据框以及时间序列等
#直接输入数据集的名字就可以直接使用这些数据集
#输出一个向量
rivers
#是北美141条河流长度
#这些数据集的名字都是内置的,一般我们在给变量命名时最好不要重复
#否则数据集在当前对话中会被置换掉
#例如
rivers<-c(1,2,3)
rivers
#不过影响不大
#再使用data函数重新加载这个数据集就可以了
data("rivers")
rivers
#一些常用内置数据集
#默认介绍页面只有名字和介绍,并没有给出数据分类
#哪些是向量、矩阵、数据框等?
#查看数据集除了直接敲数据集名字显示数据之外
#还可以使用help函数查看每个数据集具体的内容
help("mtcars")
euro
#欧元汇率,长度为11,每个元素都有命名
#输出向量的属性信息
names(euro)
#将5个数据构成一个数据框
向量
state.abb #美国50个州的双字母缩写
state.area #美国50个州的面积
state.name #美国50个州的全称
因子
state.division #美国50个州的分类,9个类别
state.region #美国50个州的地理分类
#
state<-data.frame(state.name,state.abb,state.area,state.division,state.region)
state
state.x77 #美国50个州的八个指标
state.x77
VADeaths #1940年弗吉尼亚州死亡率(每千人)
volcano #某火山区的地理信息(10米×10米的网格)
WorldPhones #8个区域在7个年份的电话总数
iris3 #3种鸢尾花形态数据
#以上矩阵→适合画热图
heatmap(volcano)
#这里只是作为一个演示,还需要对这个图进行一些调整
#更复杂的数据结构
Titanic #泰坦尼克乘员统计,是一个数组
UCBAdmissions #伯克利分校1973年院系、录取和性别的频数
crimtab #3000个男性罪犯左手中指长度和身高关系
HairEyeColor #592人头发颜色、眼睛颜色和性别的频数
occupationalStatus #英国男性父子职业联系
#类矩阵
eurodist #欧洲12个城市的距离矩阵,只有下三角部分
Harman23.cor #305个女孩八个形态指标的相关系数矩阵
Harman74.cor #145个儿童24个心理指标的相关系数矩阵
#R中内置最多的数据集——数据框
cars #1920年代汽车速度对刹车距离的影响
iris #3种鸢尾花形态数据
mtcars #32辆汽车在11个指标上的数据
rock #48块石头的形态数据
sleep #两药物的催眠效果
swiss #瑞士生育率和社会经济指标
trees #树木形态指标
USArrests #美国50个州的四个犯罪率指标
women #15名女性的身高和体重
#列表
state.center #美国50个州中心的经度和纬度
#类数据框
Orange #桔子树生长数据
#时间序列数据,和数据框类似,不同的是具有时间序列的顺序,是数据分析中非常常见的格式
#能反映出变化情况以及变化的趋势等
#因此有很多专门的方法用于时间序列的数据分析
co2 #1959-1997年每月大气co2浓度(ppm)
presidents #1945-1974年每季度美国总统支持率
uspop #1790–1970美国每十年一次的人口总数(百万为单位)
#除了内置数据集之外,许多R扩展包中也内置了很多数据集
#这些数据集作为扩展包的函数使用的案例
#加载R包之后这些数据集也同样被加载进来
#例如MASS包中的Cars93数据
#包含了27个变量,是1993年93辆汽车的型号指标
install.packages("MASS")
library("MASS")
help("Cars93")
#使用data函数在参数package中等于对应R包的名字,即可列出每个R包中包含的数据集
#ex
data(package="MASS")
#显示R中所有可用的数据集
data(package=.packages(all.available = TRUE))
#不加载R包使用其中的数据集
data(Chile,package="car")
Chile
#> data(Chile,package="car")
#Warning message:
# In data(Chile, package = "car") : data set ‘Chile’ not found
#> Chile
#Error: object 'Chile' not found
install.packages("car")
library("car")
help("Chile")
以上是关于《R语言实战》自学笔记5-数据框的主要内容,如果未能解决你的问题,请参考以下文章