罕见病数据库构建与应用专栏|不同类型“脏数据”的清洗方式
Posted 罕见病聚焦
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了罕见病数据库构建与应用专栏|不同类型“脏数据”的清洗方式相关的知识,希望对你有一定的参考价值。
“脏数据”的存在形式可以有很多种,针对不同的存在形式,研究者制定的清洗规则也应不同。
1、缺失数据清洗
数据缺失是数据清洗过程中常见的现象,当整体数据量较大,而缺失数据较少时,我们可以选择将缺失数据直接删除;但当缺失数据所占的比例较大时,直接删除必然会影响数据质量,丢失可用信息,这时就需要采用科学的办法对缺失数据进行填补。以下为常见的缺失数据填补方法:
(1)均值填补法
根据缺失数据的属性,在数据库中寻找与其相关性最大的一组数据,然后计算该组数据的均值,用计算出的均值来填补缺失数据。
(2)热卡填补法
热卡填补法是指在数据库中找出与具有缺失数据的观测最相似的一个观测,直接用该观测相应的数值来填补缺失值。对于不同的问题,需要选择不同的标准来对相似进行判定。最常见的是使用相关系数矩阵来确定相关性。
(3)回归填补法
回归填补法是指将缺失的变量与其他相关变量构建拟合度较好的回归曲线,根据其他变量的数值估算出缺失变量的数值。
除上述介绍的三种方法外,还有最近距离决定填补法、多重填补方法、K-最近邻法、有序最近邻法、基于贝叶斯的方法等。但我们必须要明确的一点是,任何填补方法都是对缺失数据的估计,填补值并不能全面真实地反映缺失数据的特征,因此,当我们对缺失数据进行填补后,一定要对因填补造成的偏倚进行合理的分析和判断。
2、噪声数据的清洗
噪声数据是指一组数据中无法解释的数据波动或异常值,通常是由于数据采集过程中的突发事件、数据收集者的疏忽、数据录入者的粗心等造成。针对噪声数据的清洗一般采用分箱技术(按照某种规则将数据进行分类),通过分析单个数据所在类别对应的数据范围来修复该数据,例如,一名观测对象的身高为175公分,体重为6.89公斤,根据相应身高人群的体重分布范围,我们可以认为是6.89公斤的体重值可能是小数点错位造成的,真实数据应该为68.9公斤。
噪声数据清洗一般采用相关软件与人工检查相结合的方法,软件检测出可疑数据,根据相关业务知识进行人工判断;使用业务常识、数据源约束条件、外部数据源的来检测和修正错误。
3、不一致数据的清洗
针对不一致数据,一般采用人工更正。数据清洗人员根据相关业务知识修正数据。
4、重复数据的清洗
清洗重复记录的基本方法是“先排序再合并后清洗”,先将数据库中的记录按照某些关键字进行排序,然后比较邻近记录是否相同来检测记录是否重复。
参考文献
毛云鹏, 龙虎, 邓初, 郭欣:数据清洗在医疗大数据分析中的应用. 中国数字医学 2017, 12:49-52.
纪威, 张涛, 崔军:R软件在慢性病监测数据清洗中的应用. 中国卫生统计 2014, 31:718-719.
滕文惠, 闫媛媛, 姚晓芳:基于Excel的数据清洗应用研究. 信息技术 2019, 15:28-30.
刘政宇:基于大数据的数据清洗技术及运用. 数字技术与应用 2019, 37:92-94.
郝爽, 李国良, 冯建华, 王宁:结构化数据清洗技术综述. 清华大学学报(自然科学版) 2018, 58:1-10.
专栏作者
往期文章
稿件题材详见征稿启事
邮箱:Focusing-rd@nrdrs.org
邮件主题:作者姓名-文章题目(专栏名称)
聚焦
本期策划:顾卫红
页面编辑:栾晓东
责任编辑:顾卫红
以上是关于罕见病数据库构建与应用专栏|不同类型“脏数据”的清洗方式的主要内容,如果未能解决你的问题,请参考以下文章