《谁说菜鸟不会数据分析》数据处理 之 数据清洗--重复数据的处理

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《谁说菜鸟不会数据分析》数据处理 之 数据清洗--重复数据的处理相关的知识,希望对你有一定的参考价值。

重复数据的处理

  • 识别重复数据
  • 删除重复数据

 

一、识别重复数据

  • 函数法
  • 高级筛选法
  • 条件格式法
  • 数据透视法
  1. 函数法

    函数:=countif(范围,条件)

    技术分享技术分享

    可以看出在列字段为A的范围内,“男”重复4次,“女”重复4次。
    那么,看到的重复项是第几个重复项呢?在countif函数中调节范围即可:=COUNTIF(A$2:A2,A2)----------A$2固定从A列的第二行开始,A2会变动,下拉时会变成A3,A4,A5...; ||   A$2:Ai: 范围从A的第2行到第i行。

    技术分享

    可以C2:男出现一次,C3:当下,男出现2次,C4:自此,男出现3次。C5:女第一次出现,C6:自此,女出现两次了。
  2. 高级筛选法

    开始--排序与筛选--筛选(高级)

    技术分享

    结果是:

    技术分享

    注:为什么会出现两个“男”呢?看我再做一个就明白啦。

    技术分享技术分享

    现在明白了吗,因为第一次做高级筛选时,没有表头,此时进行,会将第一个单元格的内容作为表头一起复制过去。
  3. 条件格式法

    选择区域--开始--条件格式--重复值

    技术分享

    技术分享技术分享

    选择自己需要的标识方式。我选第一种,可以看到,有重复的标红了。
  4. 数据透视法

    插入--数据透视表--创建数据透视表:选择用的区域和透视表放置区域---设置透视表:把表头拖到行和列的字段

    技术分享

    我选择在当前的工作表汇总汇总透视表

    技术分享

    透视表框架出现:

    技术分享

    在框架的最右边,可以设置透视表的行、列字段。
    将行字段设置为表头对应的内容,不难看出,每行的字段将为:男、女和未知
    将列字段设置为表头的内容,列字段对应的是计数项,所以内容应为男、女和未知对应的个数

    技术分享技术分享

    数据透视表创建成功:

    技术分享

    可以看出:“男”的重复个数为4,“女”的重复个数为14,“未知”的为1,总个数为19.


总结:

  • 函数法:根据范围选择不同,可以看到重复的个数,也可以得到这是第几个重复值。
  • 高级筛选法:将多余的去除,只留下唯一一个。
  • 条件格式法:将有重复项的标记,可以直观看出哪些有重复项。缺点是只能看到该内容是重复的,不能区分不同的内容的重复项。但可以灵活运用,如果重复项过多,将条件设为找唯一项,可以很快找唯一项也不错。
  • 数据透视法:将计算重复项这个工作直接做成表格,可以直观看到每个字段的重复个数。

 


 

二、删除重复数据

  • 通过菜单删除重复项
  • 通过排序删除重复项
  • 通过筛选删除重复项
  1. 通过菜单删除重复项

    数据--数据工具--删除重复项

    技术分享
    技术分享

    包括表头,共有20行,表头还是作为表头,内容为19个,结果是删除了16个重复值,留下了唯一值:男、女、和未知。(高级筛选法也可以有这个效果)
  2. 通过排序删除重复项(此处和书本可能有点不同,我觉得我这样做可能更方便些,所以记录我自己采用的那种)

    排序--删除
    对第一列,也就是我们想删除重复项的内容排序,将相同内容放在一起,通过countif,标记每个内容是第几个重复值,这几个重复值就是我们所需的
    第一列排序的效果是,女全在前面,男全在后面,countif的结果排序,效果是女列或者男这列,它们按属于第几个重复值排好序

    技术分享

    技术分享

    删除大于1的。

    技术分享

    同理删除“女”的大于1的。
  3. 通过筛选删除重复项(此处多加了点自己的想法)

    countif排序---排序--筛选--删除重复项,具体如下
    通过countif,标记每个内容是第几个重复值,这几个重复值就是我们所需的
    数据--排序和筛选:排序
    点击排序,出现下拉格

    技术分享

    因为靠第三列做筛选,所以点击第三列下拉框,会出现下面选项,把除了1以外的全部去掉。这里有几种方式都可以达到这个效果,我也在下面列出

    技术分享

    第二种方式:

    技术分享技术分享

    技术分享

    第一种结果如下:可以看出每个重复值有几个,然后复制粘贴到别处即可

    技术分享

    第二种方式结果:

    技术分享

    技术分享技术分享

    技术分享

    留下的就是唯一的了,把灰色筛选那个点一下,就变成不是灰色了,结果就出来了。


    技术分享


    总结
    • 通过菜单删除重复项:快捷。
    • 通过排序删除重复项:较为复杂,排序好还需人工看是否大于1,然后删除。
    • 通过筛选删除重复项:较为复杂,但比第二种好一点,可以自动先筛选大于1的,再删除。








































































































以上是关于《谁说菜鸟不会数据分析》数据处理 之 数据清洗--重复数据的处理的主要内容,如果未能解决你的问题,请参考以下文章

谁说菜鸟不会数据分析 PDF

谁说菜鸟不会数据分析

《谁说菜鸟不会数据分析》数据加工

谁说菜鸟不会数据分析-入门篇

菜鸟 急求SQL数据查询问题 在线等

数据挖掘书籍