数据清洗的方法包括啥 数据清洗的方法

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据清洗的方法包括啥 数据清洗的方法相关的知识,希望对你有一定的参考价值。

参考技术A 1、通常来说,清洗数据有三个方法,分别是分箱法、聚类法、回归法。这三种方法各有各的优势,能够对噪音全方位的清理。

2、分箱法是一个经常使用到方法,所谓的分箱法,就是将需要处理的数据根据一定的规则放进箱子里,然后进行测试每一个箱子里的数据,并根据数据中的各个箱子的实际情况进行采取方法处理数据。

3、回归法和分箱法同样经典。回归法就是利用了函数的数据进行绘制图像,然后对图像进行光滑处理。回归法有两种,一种是单线性回归,一种是多线性回归。单线性回归就是找出两个属性的最佳直线,能够从一个属性预测另一个属性。多线性回归就是找到很多个属性,从而将数据拟合到一个多维面,这样就能够消除噪声。

4、聚类法的工作流程是比较简单的,但是操作起来确实复杂的,所谓聚类法就是将抽象的对象进行集合分组,成为不同的集合,找到在集合意外的孤点,这些孤点就是噪声。这样就能够直接发现噪点,然后进行清除即可。

python简单的数据清洗,数据筛选方法归类

创建数组有两种方式,1.直接赋值  2.随机变量生成
随机生成包括4种:np.arange(20),np.linspace(0,10,5),np.logspace(0,2,5),np.random.random(3,2,3)
np.arange(10,20,2) ##左闭右开区间,起始值,终止值,步长
np.linspace(0,10,5) ##闭区间,起始值,终止值,元素个数 等差数列
np.logspace(0,2,5) ##闭区间,起始值(以指数形式存在),终止值(以指数形式存在, 以10为底,2的指数),元素个数 等比数列
np.random.random(3,2,3) #三维是3个,二维是2个,一维是3个

ndarray的属性:
dytpe 输出的是组成数组的元素的数据类型,int+32
shape 一个数组的各个维度大小的元组,比如返回(2, 5)
size 元素总个数
ndim 一个数组的维度数量,比如三维数组返回就是3

ndarry修改形状(只有shape会改变原来的数据,其它的都不会):
a.reshape(-1,5) #这里-1表示自适应,5表示5列
a.shape(2,-1) #方法中的值同reshape,只是shape改变了原本的数组,reshape没有改变原本的
修改数组中的值可以用切片
通过transpose转制数组,比如数组shape由(5,8)可以转换为shape为(8,5),只是提取数据,原数据不变
通过属性T转置直接shape由(5,8)转换为(8,5),只是提取数据,原数据不变

数组之间的加减乘除,数组与数组之间,数组与标量(数字)之间
数组的矩阵积,一个数组的一列值分别与另一个数组的一列值相乘
布尔类型的数组进行数组索引
花式索引arr[np.ix_([0,3,5],[0,2,3])]

通用函数,一维函数,二维函数
聚合函数,min最小值,max最大值,mean平均值等等,如arr.min(),返回具体的值
二维数组下,axis=0表示列,axis=1表示行,如arr.min(axis=0),同列上的元素进行聚合,返回的是这一列最小的值拼成的一行
where可以查找替换指定的元素np.where(条件,替换设定的值,数组)
unique可以排除重复,返回的是一维数组

请原谅我,这写的的确不是给人看的。。。例子后期看心情添加































以上是关于数据清洗的方法包括啥 数据清洗的方法的主要内容,如果未能解决你的问题,请参考以下文章

PowerQuery数据清洗?

数据质量及数据清洗方法

数据清洗记录2

python简单的数据清洗,数据筛选方法归类

SAS数据的对比和清洗

数据挖掘中常用的数据清洗方法都有哪些