R数据类型

Posted 大叔聚

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R数据类型相关的知识,希望对你有一定的参考价值。

2.2.1 向量
向量是用于存储数值型、字符型或逻辑型数据的一维数组。执行组合功能的函数c()可用来
创建向量。各类向量如下例所示:

a <-c(1, 2, 5, 3, 6, -2, 4)

b <- c("one", "two", "three")

c <-c(TRUE, TRUE, TRUE, FALSE, TRUE, FALSE)
这里,a是数值型向量,b是字符型向量,而c是逻辑型向量。①注意,单个向量中的数据必
须拥有相同的类型或模式(数值型、字符型或逻辑型)。同一向量中无法混杂不同模式的数据。

注意 标量是只含一个元素的向量,例如f <- 3、g <- "US"和h <- TRUE。它们用于保存
常量。


通过在方括号中给定元素所处位置的数值,我们可以访问向量中的元素。例如,a[c(2, 4)]
用于访问向量a中的第二个和第四个元素。更多示例如下:

a <- c(1, 2, 5, 3, 6, -2, 4)

a [3]

--[1] 5

a [c(1, 3, 5)]

--1 5 6

a [2:6]
——————————
① 由于R中内置了同名函数c(),最好不要在编码时使用c作为对象名,否则可能产生一些不易察觉的问题。——译者注
图灵社区会员 matrixvirus([email protected]) 专享 尊重版权
22 第2 章 创建数据集
最后一个语句中使用的冒号用于生成一个数值序列。例如,a <- c(2:6)等价于a <- c(2,
3, 4, 5, 6)。

 

2.2.2 矩阵
矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通
过函数matrix创建矩阵。一般使用格式为:

mymatrix <- matrix(vector, nrow=number_of_rows, ncol=number_of_columns,

                              byrow=logical_value, dimnames=list(char_vector_rownames, char_vector_colnames)

                              )
其中vector包含了矩阵的元素,nrow和ncol用以指定行和列的维数,dimnames包含了可选的、
以字符型向量表示的行名和列名。选项byrow则表明矩阵应当按行填充(byrow=TRUE)还是按
列填充(byrow=FALSE),默认情况下按列填充。代码清单2-1中的代码演示了matrix函数的
用法。

代码清单2-1 创建矩阵

> y <- matrix(1:20, nrow=5, ncol=4)
> y
     [,1] [,2] [,3] [,4]
[1,]    1    6   11   16
[2,]    2    7   12   17
[3,]    3    8   13   18
[4,]    4    9   14   19
[5,]    5   10   15   20
> cells <- c(1, 26, 24, 68)
> rnames <- c("R1", "R2")
> cnames <- c("C1", "C2")
> mymatrix <- matrix(cells, nrow=2, ncol=2, byrow=TRUE, dimnames=list(rnames, cnames))
> mymatrix
   C1 C2
R1  1 26
R2 24 68
> mymatrix <- matrix(cells, nrow=2, ncol=2, byrow=FALSE, dimnames=list(rnames, cnames))
> mymatrix
   C1 C2
R1  1 24
R2 26 68

我们首先创建了一个5×4的矩阵,接着创建了一个2×2的含列名标签的矩阵,并按行进行

填充,最后创建了一个2×2的矩阵并按列进行了填充。


我们可以使用下标和方括号来选择矩阵中的行、列或元素。X[i,]指矩阵X中的第i 行,X[,j]
指第j 列,X[i, j]指第i 行第j 个元素。选择多行或多列时,下标i 和j 可为数值型向量,如代码
清单2-2所示。
代码清单2-2 矩阵下标的使用

> x <- matrix(1:10, nrow=2)
> x
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
> x[2,]
[1]  2  4  6  8 10
> x[,2]
[1] 3 4
> x[1,4]
[1] 7
> x[1, c(4,5)]
[1] 7 9

首先,我们创建了一个内容为数字1到10的2×5矩阵。默认情况下,矩阵按列填充。然后,
我们分别选择了第二行和第二列的元素。接着,又选择了第一行第四列的元素。最后选择了位于
第一行第四、第五列的元素。
矩阵都是二维的,和向量类似,矩阵中也仅能包含一种数据类型。当维度超过2时,不妨使
用数组(2.2.3节)。当有多种模式的数据时,不妨使用数据框(2.2.4节)。

2.2.3 数组
数组(array)与矩阵类似,但是维度可以大于2。数组可通过array函数创建,形式如下:
其中vector包含了数组中的数据,dimensions是一个数值型向量,给出了各个维度下标的最大
值,而dimnames是可选的、各维度名称标签的列表。代码清单2-3给出了一个创建三维
(2×3×4)数值型数组的示例。
代码清单2-3 创建一个数组

 

> dim1 <- c("A1", "A2")

> dim2 <- c("B1", "B2", "B3")

> dim3 <- c("C1", "C2", "C3", "C4")

> z <- array(1:24, c(2,3,4), dimnames=list(dim1, dim2, dim3))

> z

, , C1

 

   B1 B2 B3

A1  1  3  5

A2  2  4  6

 

, , C2

 

   B1 B2 B3

A1  7  9 11

A2  8 10 12

 

, , C3

 

   B1 B2 B3

A1 13 15 17

A2 14 16 18

 

, , C4

 

   B1 B2 B3

A1 19 21 23

A2 20 22 24

 

如你所见,数组是矩阵的一个自然推广。它们在编写新的统计方法时可能很有用。像矩阵一
样,数组中的数据也只能拥有一种模式。
从数组中选取元素的方式与矩阵相同。上例中,元素z[1,2,3]为15。
2.2.4 数据框
由于不同的列可以包含不同模式(数值型、字符型等)的数据,数据框的概念较矩阵来说更
为一般。它与你通常在SAS、SPSS和Stata中看到的数据集类似。数据框将是你在R中最常处理的
数据结构。
表2-1所示的病例数据集包含了数值型和字符型数据。由于数据有多种模式,无法将此数据
集放入一个矩阵。在这种情况下,使用数据框是最佳选择。
数据框可通过函数data.frame()创建:

mydata <- data.frame(col1, col2, col3, ...)
其中的列向量col1, col2, col3,… 可为任何类型(如字符型、数值型或逻辑型)。每一列的
名称可由函数names指定。代码清单2-4清晰地展示了相应用法。
代码清单2-4 创建一个数据框

> patientID <- c(1, 2, 3, 4)
> age <- c(25, 34, 28, 52)
> diabetes <- c("Type1", "Type2", "Type1", "Type1")
> status <- c("Poor", "Improved", "Excellent", "Poor")
> patientdata <- data.frame(patientID, age, diabetes, status)
> patientdata
  patientID age diabetes    status
1         1  25    Type1      Poor
2         2  34    Type2  Improved
3         3  28    Type1 Excellent
4         4  52    Type1      Poor

 


每一列数据的模式必须唯一,不过你却可以将多个模式的不同列放到一起组成数据框。由于
数据框与分析人员通常设想的数据集的形态较为接近,我们在讨论数据框时将交替使用术语列和
变量。
选取数据框中元素的方式有若干种。你可以使用前述(如矩阵中的)下标记号,亦可直接指
定列名。代码清单2-5使用之前创建的patientdata数据框演示了这些方式。

代码清单2-5 选取数据框中的元素

 > patientdata[1:2]
  patientID age
1         1  25
2         2  34
3         3  28
4         4  52
> patientdata[c("diabetes", "status")]
  diabetes    status
1    Type1      Poor
2    Type2  Improved
3    Type1 Excellent
4    Type1      Poor
> patientdata$age
[1] 25 34 28 52

第三个例子中的记号$是新出现的。它被用来选取一个给定数据框中的某个特定变量。例
如,如果你想生成糖尿病类型变量diabetes和病情变量status的列联表,使用以下代码即可:

> table(patientdata$diabetes, patientdata$status)
      
        Excellent Improved Poor
  Type1         1        0    2
  Type2         0        1    0

在每个变量名前都键入一次patientdata$可能会让人生厌,所以不妨走一些捷径。可以联
合使用函数attach()和detach()或单独使用函数with()来简化代码。
1. attach()、detach()和with()
函数attach()可将数据框添加到R的搜索路径中。R在遇到一个变量名以后,将检查搜索路
径中的数据框,以定位到这个变量。以第1章中的mtcars数据框为例,可以使用以下代码获取每
加仑行驶英里数(mpg)变量的描述性统计量,并分别绘制此变量与发动机排量(disp)和车身
重量(wt)的散点图:

以上是关于R数据类型的主要内容,如果未能解决你的问题,请参考以下文章

R语言-数据类型及查看方式

R语言系列之1------数据类型

R语言数据格式转换函数数据类型判断函数(numericcharactervectormatrixdata.framefactorlogical)R语言数据格式类型转换

R语言数据对象类型

关于R语言的数据类型和数据结构的如何区分

R语言--变量与数据类型