R语言-v1-基础知识

Posted 2023-03-18

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了R语言-v1-基础知识相关的知识，希望对你有一定的参考价值。

参考技术A R语言-v1-基础知识

Iretara 12-17 21:18

以例题的形式简述R语言基础知识

# 读取文件

setwd(" 文件链接的时候，用 / ")

install.packages(" readxl ")

library(readxl)

library (tidyverse)

hw1_a<- read_excel ("hw1_a.xlsx", col_types=c("numeric", "numeric", "numeric", "numeric", "numeric") )

hw1_b<- read_excel ("hw1_b.xlsx")

#读取csv

library(readr)

hw1_a<- read_csv ("/")

View(hw1_a)

# 描述型函数

hw1_a + hw1_b 表

#描述最小值，最大值，中值，均值，标准差

Str (hw1_a) #查看数据并指出各个变量的形式

summary (hw1_a) #指出各个变量的形式，最小值，最大值，中值，均值

library(psych)

describe (hw1_a) #比summary更简便的方法，可以直接读取标准差等；但是，使用describe不可读取 NA值, 可以尝试使用 Hmisc包中 describe

描述型函数-R

# 连接

hw1_a %>% inner_join (hw1_b, by ="ID")

hw1_a %>% left_join (hw1_b, by ="ID")

hw1_a %>% right_join (hw1_b, by ="ID")

hw1_a %>% full_join (hw1_b, by ="ID")

inner_join<- inner_join (hw1_a,hw1_b, by =“ID”) #报告合并后的总行数，178行

full_join<- full_join (hw1_a,hw1_b, by ="ID")

( nrow (full_join)) #报告合并后的总行数，200行

> length (full_join$ID)

#找出各个列的缺失值

i<-NA

a<-NA

for(i in 1:length(full_join[1,])) a[i]<- sum(is.na( full_join[,i] ) )

paste("缺失值是",a)

#缺失值总数

sum(is.na(full_join))

#删除缺失值 na.omit()

full_join1=filter(full_join,!is.na(full_join[2]))

full_join1=filter(full_join1,!is.na(full_join1[3]))

full_join1=filter(full_join1,!is.na(full_join1[4]))

full_join1=filter(full_join1,!is.na(full_join1[5]))

full_join1=filter(full_join1,!is.na(full_join1[6]))

full_join1=filter(full_join1,!is.na(full_join1[7]))

full_join1=filter(full_join1,!is.na(full_join1[8]))

sum(is.na(full_join1))

找出Income中的极端值并滤掉对应行的数据

quantile (hw1_a$Income,c(0.025,0.975))

hw1_a2= filter (hw1_a,Income>14168.81 & Income<173030.92)

#使用dplyr进行数据转换

arrange()

> arrange (hw1_a,Income) #默认升序

>arrange(hw1_a, desc (Income)) #desc降序，NA排序一般最后

select()

> select (hw1_a, - (Years_at_Address:Income)) #不要变量

> rename (hw1_a, In_come=Income) #改名

>select（hw1_a,Income, exerything ()） #把Income放在前面

拓例题1：

library(nycflights13)

view(flights)

#counts

（1）

not_cancelled <- flights %>%

filter(! is.na(dep_delay), !is.na(arr_delay))

（2）

not_cancelled %>%

group_by (year,month,day) %>%

summarize (mean=mean(dep_delay))

（3）

delays <- not_cancelled %>%

group_by (tailnum) %>%

summarize (delay=mean(arr_delay))

ggplot (data=delays,mapping=aes(x= delay))+

geom_freqpoly (binwidth=10) #freqpoly

（4）

delays <- not_cancelled %>%

group_by(tailnum) %>%

summarize(delay=mean(arr_delay,na.rm=TRUE), n=n() ) #tailnum的次数

ggplot(data=delays,mapping=aes(x= n, y=delay))+

geom_point(alpha=1/10)

拓例题2：

#请按照价格的均值，产生新的变量price_new, 低于均值为“低价格”，高于均值为“高价格”。同样对市场份额也是，产生变量marketshare_new, 数值为“低市场份额”和“高市场份额”

price=data1$price

pricebar=mean(price)

price_new= ifelse (price>pricebar,“高价格”,”低价格”)

marketshare=data1$marketshare

marketsharebar=mean(marketshare)

marketshare_new=ifelse(marketshare>marketsharebar ,“高市场份额”,”低市场份额”)

data1= mutate (data1,price_new,marketshare_new)

#可视化

#将Income 对数化

lninc<- log (hw1_a$Income)

#画出直方图和 density curve密度曲线

hist (lninc,prob=T)

lines ( density (lninc),col="blue")

# 添加额外变量的办法，在 aes()中添加样式 (color、size、alpha、shape)

ggplot(data=inner_join)+

geom_point(mapping = aes(x=Years_at_Employer,y= Income, alpha= Is_Default))

# 按照Is_Default 增加一个维度，使用明暗程度作为区分方式

ggplot(data=inner_join)+

geom_point(mapping = aes(x=Years_at_Employer,y= Income,

alpha=factor( Is_Default ) ))

#使用形状作为另外一种区分方式

ggplot(data=inner_join)+

geom_point(mapping = aes(x=Years_at_Employer,y= Income,

shape=factor( Is_Default)))

可视化-R

拓展：

#将 flight1 表和 weather1 表根据共同变量进行内连接，随机抽取 100000 行数据，将生产的结果保存为 flight_weather。 (提示：sample_n()函数，不用重复抽取)

flight_weather <- inner_join(flight1, weather1) %>% sample_n(100000)

# 从 flight_weather表中对三个出发机场按照平均出发延误时间排降序，并将结果保留在 longest_delay表中。把结果展示出来

longest_delay<- flight_weather %>%

group_by(origin) %>%

summarize(delay=mean(dep_delay, na.rm=TRUE )) %>%

arrange(desc(delay))

#根据不同出发地（origin）在平行的 3 个图中画出风速 wind_speed（x 轴）和出发延误时间 dep_delay（y 轴）的散点图。

ggplot(data= flight_weather) +

geom_point(mapping=aes(x=wind_speed,y=dep_delay))+

facet_grid(.~origin, nrow = 3 ) # 按照class分类，分成3行

#根据 flight_weather 表，画出每个月航班数的直方分布图，x 轴为月份，y 轴是每个月份航班数所占的比例。

ggplot(data=flight_weather)+

geom_bar(mapping=aes(x=month, y=..prop .., group=1))

#根据 flight_weather 表，画出每个月航班距离的 boxplot 图，x 轴为月份，y 轴为航行距离, 根据的航行距离的中位数从低到高对 x 轴的月份进行重新排序

ggplot(data=flight_weather)+

geom_boxplot(mapping=aes(x= reorder (month,distance,FUN=median),y=distance))

线性回归

# 以Income作为因变量，Years at Employer作为自变量，进行 OLS回归

m1<- lm (Income ~ Years_at_Employer,data=hw1_a)

#通过***判断显著性

summary (m1)

#画出拟合直线

ggplot(data= hw1_a)+

geom_point(aes(x=Income,y=Years_at_Employer))+

geom_abline(data= m1,col= "blue")

#证明拟合直线是最优的

b0=runif(20000,-5,5)

b1=runif(20000,-5,5)

d<-NA

sum<-NA

n<-1

while(n<=20000)

for(i in 1:24)

d[i]<-(hw1_a $ Income[i]-b0[n]-b1[n]*hw2$ Years_at_Employer[i])^2

sum[n]<-sum(d)

n<-n+1

resi=m1$residuals

resi2=sum(resi^2)

check=sum(as.numeric(sum<resi2))

check

R语言基础题及答案——R语言与统计分析第六章课后习题(汤银才)

R语言与统计分析第六章课后习题(汤银才)

题-1

有一批枪弹, 出厂时, 其初速 $v\\sim N(950,\\sigma^2)$ （单位： $m / s$ ）. 经过较长时间储存, 取9发进行测试, 得样本值（单位： $m / s$ ）如下： $914, 920, 910, 934, 953, 940, 912, 924, 930$

据经验, 枪弹储存后其初速仍服从正态分布, 且标准差不变, 问是否可认为这批枪弹的初速有显著降低? $(\\alpha=0.01)$

speed<-c(914, 920, 910, 934, 953, 940, 912, 924, 930)
t.test(speed, mu=950, conf.level = 0.99)

# p值=0.001<0.01, 不接收原假设
# 初速度有明显变化，且又有926.3 <950
# 可以认为弹药初速度有显著降低

One Sample t-test
.
data: speed
t = -5, df = 8, p-value = 0.001
alternative hypothesis: true mean is not equal to 950
99 percent confidence interval:
910.3 942.3
sample estimates:
mean of x
926.3

题-2

已知维尼纶纤度在正常条件下服从正态分布, 且标准差为0.048. 从某天生产的产品中抽取5根纤维, 测得其纤度为: $1.32, 1.55, 1.36, 1.40, 1.1$ , 问这天抽取的维尼纶纤度的总体标准差是否正常? $(\\alpha=0.05)$

fiber<-c(1.32,1.55,1.36,1.40,1.1)

# 课本提供的chisq.var.test()函数：
chisq.var.test<-function (x,var,alpha,alternative="two.sided"){
  options(digits=4)
  result<-list( )
  n<-length(x)
  v<-var(x)
  result$var<-v
  chi2<-(n-1)*v/var
  result$chi2<-chi2
  p<-pchisq(chi2,n-1)
  if(alternative == "less"|alternative=="greater"){
    result$p.value<-p
  }else if (alternative=="two.sided") {
    if(p>.5)
    p<-1-p
    p<-2*p
    result$p.value<-p
  }else return("your input is wrong")
    result$conf.int<-c(
    (n-1)*v/qchisq(alpha/2, df=n-1, lower.tail=FALSE),
    (n-1)*v/qchisq(alpha/2, df=n-1, lower.tail=TRUE))
    result
}

chisq.var.test(fiber, 0.048^2, 0.05, alternative="two.sided")
# p值=4.992e-09<0.05, 不接收原假设, 总体标准差不正常

# library(TeachingDemos)
# sigma.test(x,sigmasq=0.048^2,conf.level=0.95,alternative="two.sided")
# 也可以使用TeachingDemos库所带sigma.test函数，计算值为5e-09<0.05

$var
[1] 0.02648
.
$chi2
[1] 45.97
.
$p.value
[1] 4.992e-09
.
$conf.int
[1] 0.009505 0.218654

题-3

下面给出两种型号的计算器充电以后所能使用的时间(单位:小时)的观测值:


型号A	5.5	5.6	6.3	4.6	5.3	5.0	6.2	5.8	5.1	5.2	5.9
型号B	3.8	4.3	4.2	4.9	4.5	5.2	4.8	4.5	3.9	3.7	3.6	2.9

设两样本独立且数据所属的两个总体的密度函数至多差一个平移量. 试问能否认为型号A的计算器平均使用时间比型号B来得长? $(\\alpha=0.01)$

# 两个总体的密度函数至多差一个平移量说明方差相同，但未知，使用t检验：
A<-c(5.5,5.6,6.3,4.6,5.3,5.0,6.2,5.8,5.1,5.2,5.9)
B<-c(3.8,4.3,4.2,4.9,4.5,5.2,4.8,4.5,3.9,3.7,3.6,2.9)

t.test(A,B,var.equal = TRUE)
# p值=3e-05<0.05, 故拒绝接收AB时长相等原假设,A所用时间显著比B长

Two Sample t-test
.
data: A and B
t = 5.3, df = 21, p-value = 3e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.7955 1.8212
sample estimates:
mean of x mean of y
5.500 4.192

题-4

测得两批电子器件的样本的电阻 $(Ω)$ 为:


A批(x)	0.140	0.138	0.143	0.142	0.144	0.137
B批(y)	0.135	0.140	0.142	0.136	0.138	0.130

设这两批器材的电阻值分别服从正态分布 $N(\\mu_1,\\sigma_1^2)$ 和 $N(\\mu_2,\\sigma_2^2)$ , 且两样本独立,

（1）试检验两个总体的方差是否相等? $(\\alpha=0.01)$

（2）试检验两个总体的均值是否相等? $(\\alpha=0.05)$

x<-c(0.140,0.138,0.143,0.142,0.144,0.137)
y<-c(0.135,0.140,0.142,0.136,0.138,0.130)

var.test(x, y, conf.level = 0.99)
# p值=0.4>0.01,接收H0，认为两个总体的方差相等

# 由于上一问认为方差相同，则这一问设置var.equal = TRUE
t.test(x,y,var.equal = TRUE)
# p值=0.09>0.05,接收H0，认为两个总体的均值相等

F test to compare two variances
.
data: x and y
F = 0.44, num df = 5, denom df = 5, p-value = 0.4
alternative hypothesis: true ratio of variances is not equal to 1
99 percent confidence interval:
0.02964 6.61491
sample estimates:
ratio of variances
0.4428
.
Two Sample t-test
.
data: x and y
t = 1.9, df = 10, p-value = 0.09
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.0007721 0.0084388
sample estimates:
mean of x mean of y
0.1407 0.1368

题-5

有人称某地成年人中大学毕业生比例不低于30%, 为检验之, 随机调查该地15名成年人, 发现有3名大学毕业生, 取 $\\alpha=0.05$ , 问该人的看法是否成立?

binom.test(c(3,12),p=0.3,alternative = "less",conf.level = 0.95)
# p-value=0.3>0.05不拒绝原假设

Exact binomial test
.
data: c(3, 12)
number of successes = 3, number of trials = 15, p-value = 0.3
alternative hypothesis: true probability of success is less than 0.3
95 percent confidence interval:
0.0000 0.4398
sample estimates:
probability of success
0.2

以上是关于R语言-v1-基础知识的主要内容，如果未能解决你的问题，请参考以下文章