在 df agg() 函数中计算 NaN 的最 Pythonic 方法是啥?
Posted
技术标签:
【中文标题】在 df agg() 函数中计算 NaN 的最 Pythonic 方法是啥?【英文标题】:What's the most pythonic way to count NaN's in a df agg() function?在 df agg() 函数中计算 NaN 的最 Pythonic 方法是什么? 【发布时间】:2020-11-20 11:52:52 【问题描述】:我想在 agg() 函数之后添加一列,其中包含非 NaN 的数量。 “len”不区分 NaN 和非 Nan。 在下面的示例中,我正在探索 np.sum 和 np.mean 仅使用非 NaN 的事实。但是一定有更好的方法来达到同样的结果吗?
import pandas as pd
import numpy as np
df = pd.DataFrame('a': [1, 1, 1, 0, 0, 0], 'b': [4, np.NaN, 2, 1, 6, np.NaN])
df = df.groupby("a")['b'].agg([np.sum, np.mean, np.median, np.std, len])
df['count_non_nan'] = df['sum'] / df['mean']
df
【问题讨论】:
将count
用于非空值。可以用df.groupby("a")["b"].agg(['sum', 'mean', 'median', 'std', 'count'])
【参考方案1】:
在源系列中定义一个计算非空值的函数:
def countNotNull(grp):
return grp.notnull().sum()
不要被 notnull 函数的名称所误导。它考虑到 还有 NaN 值。
然后将此函数包含在您的聚合中:
df.groupby("a")['b'].agg([np.sum, np.mean, np.median, np.std, len, countNotNull])
结果是:
sum mean median std len countNotNull
a
0 7.0 3.5 3.5 3.535534 3.0 2.0
1 6.0 3.0 3.0 1.414214 3.0 2.0
【讨论】:
【参考方案2】:用 0 替换 np.NaN。
import pandas as pd
import numpy as np
df = pd.DataFrame('a': [1, 1, 1, 0, 0, 0], 'b': [4, np.NaN, 2, 1, 6, np.NaN])
df = df.replace(np.nan, 0)
df = df.groupby("a")['b'].agg([np.sum, np.mean, np.median, np.std, len])
df['count_non_nan'] = df['sum'] / df['mean']
df
print(df)
【讨论】:
以上是关于在 df agg() 函数中计算 NaN 的最 Pythonic 方法是啥?的主要内容,如果未能解决你的问题,请参考以下文章