数据挖掘中常用的数据清洗方法都有哪些
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据挖掘中常用的数据清洗方法都有哪些相关的知识,希望对你有一定的参考价值。
数据清洗目的主要有:
①解决数据质量问题;
②让数据更适合做挖掘;
数据清洗是对数据审查过程中发现的明显错误值、缺失值、异常值、可疑数据,选用一定方法进行“清洗”,为后续的数据分析做准备。
数据清洗的方法有:
①数据数值化
对存在各种不同格式的数据形式的原始数据,对其进行标准化操作。对字符串取值,按照ANSI码值求和得到字符串的值,如果值太大,取一个适当的质数对其求模。
②标准化 normalization
对整体数据进行归一化工作,利用min-max标准化方法将数据都映射到一个指定的数值区间。
③数据降维
原始数据存在很多维度,使用主成分分析法对数据的相关性分析来降低数据维度。
④数据完整性
数据完整性包括数据缺失补数据和数据去重;
补全数据的方法有:
通过身份证件号码推算性别、籍贯、出生日期、年龄(包括但不局限)等信息补全;
通过前后数据补全;
实在补不全的,对数据进行剔除。
数据去重的方法有:
用sql或者excel“去除重复记录”去重;
按规则去重,编写一系列的规则,对重复情况复杂的数据进行去重。
python中的列表中常用的方法都有哪些,分别是啥作用?
python中的列表中常用的方法有哪些,分别是什么作用
首先,Python已经内置确定序列的长度以及确定最大和最小的元素的方法。列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。列表的数据项不需要具有相同的类型。创建一个列表,只要把逗号分隔的不同的数据项使用方括号括起来即可。以下是列表最常用的方法:
1.append() -------- 向列表的尾部添加元素
2.insert(index,object) -------- 向指定的下标处添加元素
3.sort()-------- 进行排序(从下到大 int类型)可以对字母进行排序(ASCII值)类型不能混
4.index()-------- 返回的是元素在列表中的第一个位置
5.reverse()------------ 将列表进行翻转
6.remove()---------- 删除某个元素,如果有重复,删除的是第一次出现的元素,如果元素不存在会 报错
7.count()-------- 返回的是某个元素在列表里面的个数
8.clear()--------- 清除元素
9.copy()-------- 浅拷贝对象 不等价与 =
10.extend()-------- 合并列表
11.pop()-------删除列表尾部的元素(与append相反),返回删除的元素,pop(i) i指的是下标追答
首先,Python已经内置确定序列的长度以及确定最大和最小的元素的方法。列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。列表的数据项不需要具有相同的类型。创建一个列表,只要把逗号分隔的不同的数据项使用方括号括起来即可。以下是列表最常用的方法:1.append() -------- 向列表的尾部添加元素2.insert(index,object) -------- 向指定的下标处添加元素3.sort()-------- 进行排序(从下到大 int类型)可以对字母进行排序(ASCII值)类型不能混4.index()-------- 返回的是元素在列表中的第一个位置5.reverse()------------ 将列表进行翻转6.remove()---------- 删除某个元素,如果有重复,删除的是第一次出现的元素,如果元素不存在会 报错7.count()-------- 返回的是某个元素在列表里面的个数8.clear()--------- 清除元素9.copy()-------- 浅拷贝对象 不等价与 =10.extend()-------- 合并列表11.pop()-------删除列表尾部的元素(与append相反),返回删除的元素,pop(i) i指的是下标
2、检查列表元素中是否存在该内容count(x)
3、合并列表extend(x)
4、插入元素insert(x)
5、删除某个元素pop(x)
6、排序sort(x)
7、逆序reverse(x)
8、删除某个元素remove(x) 参考技术B Python列表定义:按特定顺序排列的元素组成。在Python中,用方括号[]来表示列表,并用逗号来分隔其中的元素。Python列表是编程中很常见的数据类型 。
列表是一种可修改的集合类型,其元素可以是数字、string等基本类型,也可以是列表、元组、字典等集合对象,甚至可以是自定义的类型。其定义方式如下:>>> nums = [1,2,3,4]>>> type(nums)>>> print nums[1, 2, 3, 4]>>> strs = ["hello","world"]>>> print strs['hello', 'world']>>> lst = [1,"hello",False,nums,strs]>>> type(lst)>>> print lst[1, 'hello', False, [1, 2, 3, 4], ['hello', 'world']]
下面我们来看一下列表中有哪些常见的方法:count():统计某个元素在列表中出现的次数。index():从列表中找出某个值第一个匹配项的索引位置。append():在列表末尾添加新对象。extend():在列表末尾一次性追加另一个序列的多个值。insert():在列表的指定位置插入对象。pop():移除列表中的一个元素(默认最后一个元素),并且返回该元素的值。remove():移除列表中某个值的第一个匹配项。reverse():将列表中的元素反向,不重新拷贝一个列表。reversed():将列表中的元素反向,重新拷贝一个列表。sort():将列表中的元素排序,不重新拷贝一个列表。sortd():将列表中的元素排序,重新拷贝一个列表。copy():浅拷贝,只是给原来的列表贴上了一个新标签,对于一个复杂对象的子对象并不会完全复制,如果有子列表,改变原来的值,新的拷贝对象也会改变。deepcopy():深拷贝,将复杂对象的每一层复制一个单独的个体出来。就是完全拷贝。常见内置函数:max()、min()、sum()、len()、all()、any()、zip()、enumerate()
以上是关于数据挖掘中常用的数据清洗方法都有哪些的主要内容,如果未能解决你的问题,请参考以下文章