pandas小记：pandas数据规整化

Posted 2020-08-20 -柚子皮-

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了pandas小记：pandas数据规整化相关的知识，希望对你有一定的参考价值。

数据分析和建模方面的大量编程工作都是用在数据准备上的：加载、清理、转换以及重塑。有时候，存放在文件或数据库中的数据并不能满足数据处理应用的要求。

pandas和Python标准库提供了一组高级的、灵活的、高效的核心函数和算法，它们能够轻松地将数据规整化为正确的形式。

数据正则化data normalization

df_norm = (df - df.min()) / (df.max() - df.min())

或者df_norm2=df.apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x)))

1 pandas dataframe实现

df = (df - df.mean()) / df.std()
# df.fillna(df.min(), inplace=True)
# df.fillna(args.nan_sub, inplace=True)

Note: df_norm会保留nan值

2 np实现

df_norm2 = df.apply(lambda x: (x - np.mean(x)) / (np.std(x)))

上面df.std()和np.std()算出来的值不一样，因为np.std(）计算的是总体标准差；df.std()计算的是样本标准差，是无偏估计。

3 sklearn实现

以上是关于pandas小记：pandas数据规整化的主要内容，如果未能解决你的问题，请参考以下文章