通过检测 NaN 出现的位置，通过其他列的数学运算将 NaN 填充到列中

Posted 2023-04-12

技术标签:

【中文标题】通过检测 NaN 出现的位置，通过其他列的数学运算将 NaN 填充到列中【英文标题】：Fill NaN in a column by mathematical operation of the other columns by detecting where the NaN occur 【发布时间】：2019-02-22 16:02:03 【问题描述】：

我的数据框包含数百列。幸运的是，它们可以分为具有常规列名的两大类。组 1 包含列 Pdc、Pdc.1、Pdc.2 .... Pdc.250。第 2 组由 Pac、Pac.1.、Pac.2 .... Pac.250 组成。请注意，每组的第一列不包含后缀编号。

我想使用以下规则填充所有 NaN，无论它们在哪里：第 1 组（目标列和行）的列的任何行中的 NaN 将用第 2 组中的列的值填充，顺序相同（源列和行）乘以目标列的平均值除以平均值的源列。

为简单起见，例如，如果 NaN 在 Pdc.25 第 10 行（第 1 组）中，则应填充为： Pdc.25 第 10 行 = Pac.25 第 10 行 *（平均 Pdc.25 / 平均 Pac.25）

如果 NaN 在第 2 组中，则公式如下： Pac.30 第 15 行 = Pdc.30 第 15 行 *（平均 Pac.30 / 平均 Pdc.30）

我写了以下代码：

df['Pdc.25'] = (df['Pdc.25'].fillna(df['Pac.25']*((df['Pdc.25'].mean()/df['Pac.25'].mean())))).to_frame()
df['Pac.30'] = (df['Pac.30'].fillna(df['Pdc.30']*((df['Pac.30'].mean()/df['Pdc.30'].mean())))).to_frame()

上面的代码完美运行，但是对于 500 列，我必须写 500 行方程。

您知道如何使其变得简单，例如通过自动定位 NaN 并根据规则填充它们吗？

感谢您查看我的问题。

【问题讨论】：

【参考方案1】：

根据您的命名约定，确保列已排序并使用.values 对齐操作。可以使用.where 填写所有内容。如果您想在缺少列的情况下更安全（即您有 Pac.31 但没有 Pdc.31），请映射操作的列名以保证对齐。

import pandas as pd
#df = df.sort_index(axis=1)

pac = df.filter(like='Pac')
pdc = df.filter(like='Pdc')

df_res = pd.concat([pac.where(pac.notnull(), pdc.multiply(pac.mean().div(pdc.mean().values).values).values),
                    pdc.where(pdc.notnull(), pac.multiply(pdc.mean().div(pac.mean().values).values).values)
                    ], axis=1)

输出`df_res`:

        Pac  Pac.1     Pac.2       Pdc     Pdc.1  Pdc.2
0  1.000000    6.0  3.000000  1.285714  4.952381    2.0
1  1.555556    1.0  2.000000  2.000000  2.000000    1.0
2  7.000000    6.0  3.714286  7.000000  4.952381    3.0
3  6.000000    7.0  5.000000  5.000000  5.000000    7.0
4  5.000000    2.0  3.714286  6.000000  1.650794    3.0
5  2.000000    7.0  4.000000  7.000000  5.000000    1.0
6  3.000000    4.0  3.000000  4.000000  1.000000    1.0
7  1.000000    5.0  3.000000  1.285714  7.000000    3.0
8  5.000000    5.0  6.000000  4.000000  5.000000    6.0
9  5.000000    2.0  3.714286  6.428571  1.000000    3.0

样本数据

import numpy as np
df = pd.DataFrame(np.random.choice([1,2,3,4,5,6,7, np.NaN], (10,6)),
                  columns = ['Pdc', 'Pdc.1', 'Pdc.2', 'Pac', 'Pac.1', 'Pac.2'])

   Pdc  Pdc.1  Pdc.2  Pac  Pac.1  Pac.2
0  NaN    NaN    2.0  1.0    6.0    3.0
1  2.0    2.0    1.0  NaN    1.0    2.0
2  7.0    NaN    3.0  7.0    6.0    NaN
3  5.0    5.0    7.0  6.0    7.0    5.0
4  6.0    NaN    3.0  5.0    2.0    NaN
5  7.0    5.0    1.0  2.0    7.0    4.0
6  4.0    1.0    1.0  3.0    4.0    3.0
7  NaN    7.0    3.0  1.0    5.0    3.0
8  4.0    5.0    6.0  5.0    5.0    6.0
9  NaN    1.0    3.0  5.0    2.0    NaN

说明：

第一步是对列进行排序，然后过滤以查找以字符串'Pac' 或'Pdc' 开头的列。由于我们对索引进行了排序，这保证了排序是一致的（只要组中的后缀集相同）

df = df.sort_index(axis=1)
pac = df.filter(like='Pac')
pdc = df.filter(like='Pdc')

print(pac.head(3))
#   Pac  Pac.1  Pac.2
#0  1.0    6.0    3.0
#1  NaN    1.0    2.0
#2  7.0    6.0    NaN

print(pdc.head(3))
#   Pdc  Pdc.1  Pdc.2
#0  NaN    NaN    2.0
#1  2.0    2.0    1.0
#2  7.0    NaN    3.0

现在我们可以算算了。忽略.fillna 逻辑，只考虑计算我们将为everything 填充的内容。 DataFrame 操作在索引上对齐（同时行和列）。可以看到pac和pdc共享行Index，但是列Index（列名）不同，导致问题：

pac.mean()
#Pac      3.888889
#Pac.1    4.500000
#Pac.2    3.714286
#dtype: float64

pdc.mean()
#Pdc      5.000000
#Pdc.1    3.714286
#Pdc.2    3.000000
#dtype: float64

pac.mean().div(pdc.mean())
#Pac     NaN
#Pac.1   NaN
#Pac.2   NaN
#Pdc     NaN
#Pdc.1   NaN
#Pdc.2   NaN

但是，因为我们之前进行了排序，我们可以看到 values 是对齐的，所以我们安全地划分每一列意味着访问 values 数组。这给出了每个 Pac 列的平均值除以相应 Pdc 列的平均值。

pac.mean().div(pdc.mean().values)
#Pac      0.777778
#Pac.1    1.211538
#Pac.2    1.238095
#dtype: float64

乘法有同样的对齐问题，所以再次访问这些值，现在这给了我们一个DataFrame，与子集的形状相同，如果值为空，我们应该填充：

pdc.multiply(pac.mean().div(pdc.mean().values).values)
#        Pdc     Pdc.1     Pdc.2
#0       NaN       NaN  2.476190
#1  1.555556  2.423077  1.238095
#...

最后，fillna 逻辑是用where 完成的，因为我们有两个DataFrames：

pac.where(pac.notnull(), pdc.multiply(pac.mean().div(pdc.mean().values).values).values)

可以理解为“使用 pac 中不为空的值，否则使用计算中的值”，这正是我们想要的。同样，我们需要访问 .values 以获取 where 的“其他”（第二个参数），因为列名也不相同，但值是对齐的。

分别为每个组执行此操作，然后重新加入。

【讨论】：

老实说，我不明白您的代码是如何工作的，但它与我的数据完美结合。非常感谢。 @k.koen，如果您愿意，我很乐意在解决方案中添加更多解释。否则，也许一次只通过小部分来查看发生了什么（测试pac.mean().div(pdc.mean().values) 之类的东西，看看它返回什么。最棘手的部分可能是DataFrame.where，尽管它是一个非常方便使用的函数。出于学习目的，如果您想解释它是如何工作的，我会很高兴。感谢您的进一步建议。

以上是关于通过检测 NaN 出现的位置，通过其他列的数学运算将 NaN 填充到列中的主要内容，如果未能解决你的问题，请参考以下文章

当任何数学运算在 .net 4 中产生“NaN”时，如何强制 C# 编译器抛出异常？

matlab 如何用插值给NAN赋值

当任何数学运算产生“NaN”时，如何强制 C# 编译器抛出异常？

如何根据其他列的某些值替换列的nan值

通过 Matlab 中的移动索引移动矩阵中的批量行

float 型数据出现 nan 的问题

通过检测 NaN 出现的位置，通过其他列的数学运算将 NaN 填充到列中

输出df_res:

样本数据

说明：

输出`df_res`: