为啥要创建一个二进制列来指示具有缺失值的记录

Posted

技术标签:

【中文标题】为啥要创建一个二进制列来指示具有缺失值的记录【英文标题】:Is there a why to create a binary column that indicates records with missing values为什么要创建一个二进制列来指示具有缺失值的记录 【发布时间】:2021-01-14 06:15:42 【问题描述】:

这是我第一次使用 *** 来提问,所以请让我知道我是否做错了什么(就提问而言) 我的数据现在看起来像这样 - 如附件 - 我想知道是否有任何方法可以创建一个二进制列来指示具有缺失值的记录,因为我的目标是获取每个国家/地区的缺失值记录的比例。 谢谢 enter image description here

【问题讨论】:

你能提供你尝试过的东西吗? 请更清楚你在做什么,你正在使用什么技术等。但基本上听起来你只需要阅读如何制作数据模型,使用任何数据库解决方案你正在使用。 谢谢大家,我会先考虑一下,然后看看如何更好地问 【参考方案1】:

这里部分回答了这个问题:How to select rows with one or more nulls from a pandas DataFrame without listing columns explicitly? 对于这种情况,答案是:

wv['row_has_nan'] = wv.isnull().any(axis=1)

【讨论】:

以上是关于为啥要创建一个二进制列来指示具有缺失值的记录的主要内容,如果未能解决你的问题,请参考以下文章

在缺失值的数量上循环删除列

复制具有缺失值的行并使用向量替换缺失值

相异矩阵中具有缺失值的多维缩放

Pandas:合并具有不同索引和缺失值的两个数据框

用于异常检测的具有缺失值的时间序列的 STL 分解

在数据框的选定列中包含 NA(缺失)值的行子集