【R】数值型向量及运算
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【R】数值型向量及运算相关的知识,希望对你有一定的参考价值。
参考技术A向量 是将若干个基础类型相同的值存储在一起, 各个元素可以按序号访问。 如果将若干个数值存储在一起可以用序号访问, 就叫做一个数值型向量。
用c()函数把多个元素或向量组合成一个向量。如
10:13这样的写法表示从10到13的整数组成的向量。
用print()函数显示向量或在命令行中显示向量时, 每行显示的行首会有方括号和数字序号, 代表该行显示的第一个向量元素的下标。如
length(x)可以求x的长度。 长度为零的向量表示为numeric(0)。 numeric()函数可以用来初始化一个指定元素个数而元素都等于零的数值型向量, 如numeric(10)会生成元素为10个零的向量。
单个数值称为标量, R没有单独的标量类型, 标量实际是长度为1的向量。
R中四则运算用+ - * / ^表示(加、减、乘、除、乘方),如
R中四则运算仍遵从通常的优先级规则, 可以用圆括号()改变运算的先后次序。 如
除了加、减、乘、除、乘方, R还支持整除运算和求余运算。 用%/%表示整除,用%%表示求余。如
向量与标量运算
向量与标量的运算为每个元素与标量的运算, 如
一个向量乘以一个标量, 就是线性代数中的数乘运算。
四则运算时如果有缺失值,缺失元素参加的运算相应结果元素仍缺失。 如
等长向量的运算为对应元素两两运算。 如
两个等长向量的加、减运算就是线性代数中两个向量的加、减运算。
两个不等长向量的四则运算, 如果其长度为倍数关系,规则是每次从头重复利用短的一个。 如
不仅是四则运算,R中有两个或多个向量按照元素一一对应参与某种运算或函数调用时, 如果向量长度不同,一般都采用这样的规则。
如果两个向量的长度不是倍数关系,会给出警告信息。如
R中的函数一般都是向量化的: 在R中, 如果普通的一元函数以向量为自变量,一般会对每个元素计算。 这样的函数包括sqrt, log10, log, exp, sin, cos, tan等许多。 如
为了查看这些基础的数学函数的列表,运行命令help.start(), 点击链接“Search Engine and Keywords”, 找到“Mathematics”栏目, 浏览其中的“arith”和“math”链接中的说明。 常用的数学函数有:
有一些不太常用的数学函数:
如果自己编写的函数没有考虑向量化问题, 可以用Vectorize()函数将其转换成向量化版本。
sort(x)返回排序结果。 rev(x)返回把各元素排列次序反转后的结果。 order(x)返回排序用的下标。如
例子中, order(x)结果中3是x的最小元素11所在的位置下标, 1是x的第二小元素33所在的位置下标, 2是x的最大元素55所在的位置下标。
sum(求和), mean(求平均值), var(求样本方差), sd(求样本标准差), min(求最小值), max(求最大值), range(求最小值和最大值)等函数称为统计函数, 把输入向量看作样本,计算样本统计量。 prod求所有元素的乘积。
cumsum和cumprod计算累加和累乘积。如
其它一些类似函数有pmax, pmin, cummax, cummin等。
1. 显示1到100的整数的平方根和立方根(提示:立方根就是三分之一次方)。
2. 设有10个人的小测验成绩为:
解答:
R语言的排序函数(order, sort, rank)及匹配函数(match,%in%)用法详解
参考技术A R语言中,和排序相关的常用函数有: order() , sort() , rank() ,一般是对向量进行操作,也可以对数据框的列进行操作。
1. order(..., decreasing = FALSE)
“...” 中可以是一个向量(数值型,字符型,逻辑型, 因子型 均可),也可以是多个向量( 长度必须相同 )
它返回的是排列后(默认是升序)的元素在该向量中所处的位置,即 索引 ,所以返回的不是原来向量的那些数值,而是排序后那些数值所对应的位置。它在常在数据框中运用,可以根据某一列和某几列来调整数据框。
1.1 单个向量
1.2 多个向量(数据框的多列)
上面最左边的一列数值(不是var1这一列)就是 order(df$var1) 生成的,列var1的顺序就是order后的,注意和前面df 的列var1进行比较,还有一点要牢记的就是这种在数据框里的调整,是 整行变动(都按列var1来) 。故而本质上,对于数据框而言, order函数出来的是原始数据框中的行号,行号顺序一变,意味着行号代表的整行跟着变 。
接着再按列var2排序(注意是在列var1已经排好的基础上再按列var2重新排序,即此时列var1里的 非重复值的行顺序不会再变了,只有列var1里有重复值(数值相同的)的行才会变换 ,而且是按照列var2来变换,。如还要按其它列再排,以此类推):
最后再按列var3排序,此时只有列var2中 有重复值的行 (当然这时var1肯定也是重复的)才会变换------这里是含有9的那两行,并且是按照这些重复值对应到列var3的那些行的数值(数值1和2)来变的
总结提升,order()函数中,如果第一个向量(或者说是数据框里你想要根据它来调整的那一列)里没有重复值,那么按照后面的所有向量(不管有多少个)的重排都不会进行(或者说重排的结果不会变),order(vec1,vec2,vec3,...) 返回的行号及其顺序和 order(vec1) 的是一样。
同理,也可以处理对应的行(比如矩阵或是数据框的行)
1.3 factor(因子型向量)
2. sort(x, decreasing = FALSE)
x 只能是 一个 向量(数值型,字符型,逻辑型, 因子型 均可)
返回的是排序后(默认是升序)的那个数值向量( 还是那些数值,只不过是排序过了的 )
3. rank(x, na.last = TRUE)
求秩的函数,x 只能是 一个**向量(数值型,字符型,逻辑型), 该向量一般不会有重复值 ,返回的是该向量中对应元素的“排名”,即元素顺序它不会改变,只是告诉你每个元素在整个向量中的名次(如果要排序(默认是升序)的话)。
如果向量有重复值,出现的结果会有些不太好处理
匹配两个向量,返回的是第一个向量 x中的各个元素在第二个向量 y中所匹配的元素的位置值(索引,下标值),即 返回的是第二个向量的下标值组成的向量 。
注意事项:
1. 返回的下标值向量的长度与第一个向量相等,即 length(x) == length(match(x,y)) 为 TRUE。
2. 第一个向量可以是只有一个元素的向量。
3. 两个向量的长度不一定要相等。
4. 返回的是 x中每个元素在y中的位置,可用来提取y中的元素,没有匹配上的会返回 NA。
拓展用法:
y [match(x, y)] : x中 和y 相同的元素都是哪些,前提是x中的元素在y中都有(即x是y的子集),否则会返回 NA。( 最好是用x[ x %in y] )
y[-match(x, y)] : 找出 y里面有 x里面没有的数值,前提是x中的元素在y中都有(即x是y的子集),否则会报错。
当两个向量类型不一样时, match函数会进行类型转换,然后再匹配。
x %in% y
判断x中的元素是否都在y中,返回的是个长度和 x 一样的逻辑值向量,存在的话返回TRUE,否则返回FALSE。
sum(x %in% y) : 统计 x 中有多少个元素在y中,或者说 x 和 y 有几个相同元素
x[x %in% y] : x中 和y 相同的元素都是哪些
以上是关于【R】数值型向量及运算的主要内容,如果未能解决你的问题,请参考以下文章