第三章数据探索
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第三章数据探索相关的知识,希望对你有一定的参考价值。
1.脏数据包括:缺失值,异常值,不一致的值,重复数据及含有特殊字符(#,¥,*)的数据。
2.异常值也称离群点,异常值分析也称离群点分析。
- 简单统计量分析:最常用的统计量是最大值和最小值。(如客户年龄最大值199,存在异常)
- 3σ原则:如果数据服从正态分布,在3σ原则下,测定值中与平均值的偏差超过3倍标准差的值就是异常值。P(|x-μ|>3σ)≤0.003,这个概率极小。
- 箱型图分析:箱型图提供识别异常值的标准:异常值通常被定义为小于QL-1.5IQR或大于Qu+1.5IQR的值。QL称为下四分位数,表示全部观察值中有四分之一的数据比它小;Qu称为上四分位数,表示全部观察值中有四分之一的数据比它大;IQR称为四分位距,是Qu-QL,其中包含了全部观察值的一半。
优势:1.对数据没要求(如服从某种特定的分布形式)
2.箱型图判断异常值的标准以四分位数和四分位距为基础,四分位数具有一定的鲁棒性:多达25%的数可以变得任意远而不会很大的扰动四分位数,所以异常值不能对这个标准施加影响。
以上是关于第三章数据探索的主要内容,如果未能解决你的问题,请参考以下文章
Android艺术开发探索第三章————View的事件体系(下)
Android探索之旅(第三十四篇)ADF WIFI 难用?不存在的