R语言实战——1.4基本数据管理
Posted 零基础学数据分析
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R语言实战——1.4基本数据管理相关的知识,希望对你有一定的参考价值。
基本数据管理
话不多说,直接开搞!
01
变量的重命名
创建一个数据框
方法一:fix(information),直接从交互式编辑器中修改变量的名字
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/b17779a295bf4f2ab656799971c39d82.jpg)
方法二:通过names()函数更改名字
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/9b258b0259de49dea86d5046eed184ca.jpg)
方法三:通过rename()函数更改名字
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/9ca5bd70a93f405eb3e9bf3ae72c71e8.jpg)
02
缺失值
检测是否存在缺失值:is.na(),若存在缺失值则对应的位置显示TRUE,否则显示FALSE
重编码某些值为缺失值,该缺失值的处理方法可以用于处理某些不具有意义或未知的数据
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/893207584a104909b9c3337cc9c640a3.jpg)
在分析中排除缺失值
如果在计算过程中存在缺失值,则结果也会出现缺失值;此时需要在分析中排除缺失值,使用函数na.rm=TRUE;此外na.omit()函数可以移除缺失值所在的行
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/6235f1311fcc4838a2ed5b3792befe67.jpg)
03
日期值
按特定格式读取日期值
日期值通常以字符串的形式输入到R中,再转化为以数值形式存储的日期变量。用函数as.Date()转化,标准形式为as.Date(x,”input_format”)
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/fbc0fa2548104230b164a3f44d3d9b14.jpg)
表示用mm/dd/yyyy来读取数据
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/f33e5cd97df1430f9c1dc54412e67b29.jpg)
按特定格式输出日期
sys.Date()返回当前日期,date()返回当前的日期和时间
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/12be387ee3cb4a78b36c0b68205baf09.jpg)
通过函数format(x,format=”output_format”)来输出指定格式的日期值(注意勿犯图中错误)
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/8c677bed075f4d638efb32e687771997.jpg)
将日期转化为字符型变量
通过函数as.character
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/cc09b05937b14f8791bd6570b0f425dd.jpg)
04
类型转换
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/7853f0d55ae242bcb4e416e19cc2f81e.jpg)
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/eb253c9ec9f647278acedde8b37e354b.jpg)
05
数据排序
可以用order()函数对一个数据框进行排序,默认排序顺序是升序,再排序变量的前边加一个减号即可得到降序的排序结果。
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/54a01cfe259b4b5781cfa010c3dd023e.jpg)
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/253a8efdab3f49b59bdc196c707658e5.jpg)
将排序后的数据框赋给newdata,从结果中可以看出age数据已按大小按降序排序
06
数据集的合并
向数据框添加列
若要横向合并两个数据框,使用merge()函数;在通常情况下,两个数据框通过一个或多个共有变量进行连结
如:
total<-merge(dataframeA,dataframeB,by=c(”ID”,”Country”))
向数据框添加行
要纵向合并两个数据,使用rbind()函数;两个数据框必须拥有相同的变量,不过两者顺序不必一定相同,如dataframeA中拥有dataframeB中没有的变量,在合并前应当删去dataframeA中多余的变量或在dataframeB中添加相应的变量并将值设为NA
如:total<-rbind(dataframeA,dataframeB)
07
数据集取子集
剔除变量
方法一:若知道变量的位置,可以在某一列的下标之前加一个减号剔除该列
Newdata<-information[c(-8,-9)] 删除第八和第九个变量
方法二:将要删去的两列设为未定义(NULL)
Information$gender<-information$date<-NULL 将information数据框下的gender date两个变量从中删去
Subset()函数
Newdata<-subset(information,age>=35 | age<24,select=c(q1,q2,q3,q4))
表示选择age值大于等于35或小于24的行,保留q1 q2 q3 q4变量
随机抽样
Sample()函数能够从数据集中有放回或无放回地抽取大小为n 的一个随机样本
如:
mysample<-information[sample(1:nrow(information),3,replace=FALSE)]
第一个参数是一个由要从中抽样的元素组成的向量,第二个参数是要是抽取的元素数量,第三个表示无放回抽样
![R语言实战——1.4基本数据管理](https://image.cha138.com/20210418/85547006be8a4a8fb278ecdcf0a92351.jpg)
分享、在看与点赞
只要你点,我们就是胖友
以上是关于R语言实战——1.4基本数据管理的主要内容,如果未能解决你的问题,请参考以下文章