Python数据清洗——Numpy
Posted 土味儿大谢
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python数据清洗——Numpy相关的知识,希望对你有一定的参考价值。
文章目录
一、Numpy数据类型与常用数组
1.1 构建ndarray
import numpy as np
维度看最外层方括号数量,一个方括号是一维,两个方括号是二维…
如果类型不匹配,NumPy 将会向上转换(字符串>浮点数>整数)
1.2 指定类型创建
1.3 查看类型ndarray.dtype
ndarray.dtype用来显示当前ndarray对象的数据属于什么类型:
1.4 类型转换ndarray.astype()
- 第一种方式: ndarray.astype(“数据类型名”)
- 第二种方式: ndarray.astype(np.数据类型名)
1.5 常用的数组
1.5.1 np.arange()
和普通数组创建语法一样
1.5.2 np.linspace()
np.linspace(start, stop, num=50, endpoint=True)
- 在指定的间隔内返回均匀间隔的数字,用作相同间隔采样。
- start:标量,序列的起始值。
- stop:标量,除非"endpoint"设置为False,否则为序列的结束值。
- num:int,可选。要生成的样本数。默认值为50.必须为非负数。
1.5.3 np.zeros()
1.5.4 np.ones()
1.5.5 np.eye()
返回一个二维数组,其中对角线为1,零点为零的二维数组。(单位矩阵)
1.5.6 np.full()
返回给定形状和类型的新数组,填充fill_value
- np.full(shape,fill_value,dtype = None)
- shape:int或int的序列新数组的形状,例如(2,3)或2。
- fill_value:标量填充值。
- dtype:数据类型,可选数组所需的数据类型默认值为"None"。
1.5.7 设置空值
np中缺失值用np.nan表示,其他ndarry对象与之运算的结果都为缺失值,运算结果数组的形状与参与运算的数组的形状 一致。
1.5.8 随机数组
1.5.8.1 np.random.randint()
1.5.8.2 np.random.random()
1.5.8.3 np.random.uniform()
- 语法:np.random.uniform(low=0.0, high=1.0, size=None)
- 返回随机浮点数,在半开区间[a,b)中。
1.5.8.4 np.random.randn()
- 语法:np.random.randn(形状)
- 从“标准正态”分布中返回一个样本(或样本)。
1.5.8.5 np.random.normal()
- 语法:normal(平均值,标准偏差,形状)
- 作用:从正态分布中抽取随机样本。
- 如果平均值和标准差为0和1,或者不写这两个参数,就等同于
- np.random.randn()
1.5.8.6 np.random.choice()
1.5.8.7 np.random.shuffle()
通过混洗其内容来就地修改序列。此功能仅沿a的第一轴洗牌。
-
np.random.shuffle(x)
- x:array_like(要洗牌的数组或列表)。
-
对于一维数组,打乱的对象是一个个元素的顺序
-
对于二维数组,打乱的对象是一个个一维数组
-
对于三维数组,打乱的对象是一个个二维数组
二、Numpy属性、索引和切片
2.1 ndarray常用属性
2.1.1 np.random.seed()
若不设定随机数种子,那么每次运行后产生的随机数都不一样,设定了后产生的随机数不会自动改变
2.1.2 ndarray.shape
查看数组的形状
2.1.3 ndarray.ndim
查看数组的维度
2.1.4 ndarray.size
查看数组元素个数
2.2 数组的索引和切片
单元素索引和切片操作和普通数组一样
2.2.1 多维数组索引
注意:行和列的索引位置用逗号隔开
也可以按照以往嵌套列表元素的方法,一层一层取。但是推荐用上面那种方法
例如想取红框内元素
2.2.2 修改数组元素值
2.2.3 二维切片
切片语法没有任何变化
x[start:stop:step]
注意,二维数组切片的取法,下面两种方法的差异:
三、Numpy的变形、拼接和分裂
import numpy as np
3.1 数组的变形
3.1.1 ndarray.reshape
同样地,可以对3维数组进行变形,此时注意数组中元素的总和即可:
技巧:在使用 reshape 时,可以将其中的一个维度指定为 -1,Numpy 会自动计算出它的真实值
注意:只能出现一个-1
3.1.2 ndarray.shape
使用ndarray.shape有两种场景:
第一种是查看数组形状:
第二种是改变数组形状
3.1.3 ndarray.resize()
使用 resize 方法可以直接修改数组本身
作用和shape改变数组形状是一样的,即改变数组本身。
3.1.4 ndarray.ravel()
数组的平铺。
不管多少维,全部铺开变成一维。
3.1.5 ndarray.T
注:无论是ravel、reshape、T,它们都不会更改原有的数组形状,都是返回一个新的数组
3.2 数组的拼接
- 一维数组只有一个轴
- axis=0 基本操作单位是一维数组里的一个个元素
- 二维数组有两个轴
- axis=0 基本操作单位是二维数组里的一个个一维数组
- axis=1 基本操作单位是一维数组里的一个个元素
- 三维数组有三个轴
- axis=0 基本操作单位是三维数组里的一个个二维数组
- axis=1 基本操作单位是二维数组里的一个个一维数组
- axis=2 基本操作单位是一维数组里的一个个元素
3.2.1 np.concatenate()
同样地,我们观察一下三维数组合并规律:
3.2.2 np.vstack()
垂直堆叠数组
3.2.3 np.hstack()
水平堆叠数组
3.3 数组的分裂
3.3.1 np.split()
因为返回的对象是子阵列表,因此是可以进行索引操作的:
按照axis=1来划分
3.3.2 np.vsplit()
‘vsplit’相当于’split’用’axis = 0’来’拆分’
3.3.3 np.hsplit()
‘hsplit’相当于’split’用’axis = 1’来’拆分’
四、Numpy的运算与排序
常用运算基本操作和普通数组一样
4.1 矩阵运算
- 需要注意的是,乘法运算符*的运算在NumPy数组中也是元素级别的。
- 如果想要执行矩阵乘积,可以使用dot函数:
- dot(a, b, out=None)
- 如果’a’和’b’都是1-D数组,它就是向量的内积。
- 如果’a’和’b’都是二维数组,那就是矩阵乘法。
- 如果’a’或’b’是0-D(标量),它相当于’numpy.multiply(a,b)'或’a * b’是首选。
- 如果’a’是N-D数组而’b’是1-D数组,则它是和的乘积’a’和’b’的最后一个轴。
如果a和b都是一位数组,就是求向量的内积
如果c和d都是二维数组,就是求矩阵乘法
4.2 判断符的妙用
如果想要将数组a中奇数元素删除:
4.3 聚合函数
4.3.1 常用聚合函数
函数 | 说明 |
---|---|
sum | 对数组中全部或某轴向的元素。零长度的数组sum为0 |
mean | 算数平均数。零长度的数组mean为nan |
std、var | 标准差、方差 |
min、max | 最大值、最小值 |
argmin、argmax | 最大和最小元素的索引 |
cumsum、cumprod | 累计和、累计积 |
上面的求和方式可以通过数组对象来调用.sum()函数:
对于二维数组的操作,如果是axis=0
- 操作的对象就是一维数组之间的操作
对于二维数组的操作,如果是axis=1
- 操作的对象就是一维数组内部的一个个元素
中位数
第一步:先对序列升序排列
第二步:取中间的值
如果中间的值有两个,则去中间两个值的均值
- 6、3、7由小到大排列,变成:3、6、7
- 3、6、7中间的数6就是这个序列的中位数
[6,3,7,8]
- 排序:3、6、7、8
- 取中间两个数的均值(6+7)/2=6.5
如果序列数值中,有一些过大或过小的数值,[6,3,7,8,8888]–>3,6,7,8,8888–>中位数就是7
中位数:体现序列数值的集中程度,使用中位数来描述集中程度的好处是:可以避免过大或者过小的数值的干扰
- 均值:如果用均值来描述数据的集中程度,缺点:容易受异常值干扰
方差怎么求?
- 第一步:求出序列的均值5
- 第二步:序列中每个数值减去均值5(本意在于:求出每个数和均值之间的距离)
- 第三步:每个差值分别求平方
- 第四步:所有平方结果求和
- 第五步:求和结果除以序列中数值的数量3
标准差为方差的开方
cumsum(累计和)、cumprod(累计积)
4.3.2 Numpy聚合函数使用场景
student_grade.txt文档内容如下
4.4 Numpy的快速排序
4.4.1 np.sort()
4.5 唯一化和集合逻辑
方法 | 说明 |
---|---|
unique(x) | 计算x中的唯一元素,并返回有序结果。 |
intersect1d(x,y) | 计算x和y的公共元素,并返回有序结果。 |
union1d(x,y) | 计算x和y的并集,并返回有序结果。 |
in1d(x,y) | 得到一个表示“x的元素是否包含于y”的布尔型数组。 |
setdiff1d(x,y) | 集合的差,即元素在x中且不在y中。 |
setxor1d(x,y) | 集合的对称性,即存在于一个数组中但不同时存在于两个数组中的元素。 |
4.5.1 唯一化
np.unique()#去重
4.5.2 交集
4.5.3 并集(去重)
4.5.4 差集
4.5.5 补集
五、Numpy数组拉伸和函数向量化
5.1 数组拉伸
5.1.1 列表推导式
5.2 函数的向量化
5.2.1 frompyfunc 函数
frompyfunc(func,nin,nout)
- 采用任意Python函数并返回NumPy ufunc。
- 例如,可以用于向内置Python添加广播功能。
- 参数
- func:Python函数对象,任意Python函数。
- nin:int,输入参数的数量。
- nout:int,'func’返回的对象数。(NumPy通用函数(ufunc)对象。)
5.2.2 vectorize 函数
np.vectorize([‘pyfunc’,‘otypes = None’)
- 定义一个矢量化函数,它接受一组嵌套的对象或numpy数组作为输入并返回单个numpy数组或元组输出。
- pyfunc:可调用python函数或方法。
- otypes:str或dtypes列表,可选输出数据类型。必须将其指定为字符串typecode字符或数据类型说明符列表。应该是每个输出的一个数据类型说明符。
需要注意的是,vectorize函数主要作用是提供便利,而不是性能。它的实现本质上是for循环。
以上是关于Python数据清洗——Numpy的主要内容,如果未能解决你的问题,请参考以下文章