Python 数据竞赛常用 | 可视化数据集缺失情况
Posted 叶庭云
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 数据竞赛常用 | 可视化数据集缺失情况相关的知识,希望对你有一定的参考价值。
无论是打比赛还是在实际工程项目中,都会遇到数据缺失的情况,如果数据集较小,还能在 Excel 或者其他可视化软件大致看一下导致数据缺失的原因。但当数据集较大时,手工查看每个变量的缺失值是非常麻烦的一件事情。
数据探索和预处理也是任何数据科学或机器学习工作流中的重要步骤。缺失数据可能是处理真实数据集时最常见的问题之一,数据丢失的原因很多,包括传感器故障、数据过时、数据管理不当,甚至人为错误。丢失的数据可能以单个值、一个要素中的多个值或整个要素丢失的形式出现。
重要的是,在进行数据分析或机器学习之前,需要我们对缺失的数据进行适当的识别和处理。许多机器学习算法不能处理丢失的数据,需要删除整行数据,其中只有一个丢失的值,或者用一个新值替换(插补)。
混乱的数据集? m i s s i n g n o missingno
开发者涨薪指南 48位大咖的思考法则、工作方式、逻辑体系以上是关于Python 数据竞赛常用 | 可视化数据集缺失情况的主要内容,如果未能解决你的问题,请参考以下文章
Python数据分析(八):农粮组织数据集探索性分析(EDA)
Python-sklearn数据预处理(单/多个数据集数据标准化稳健标准化缺失值填补)