pandas小记:pandas数据规整化
Posted -柚子皮-
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas小记:pandas数据规整化相关的知识,希望对你有一定的参考价值。
http://blog.csdn.net/pipisorry/article/details/39506169
数据分析和建模方面的大量编程工作都是用在数据准备上的:加载、清理、转换以及重 塑。有时候,存放在文件或数据库中的数据并不能满足数据处理应用的要求。
pandas和Python标准库提供了一组高级的、灵活的、高效的核心函数和算法,它们能够轻松地将数据规整化为正确的形式。
数据正则化data normalization
min-max标准化(对列进行)
df_norm = (df - df.min()) / (df.max() - df.min())
或者df_norm2=df.apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x)))
Z-score标准化(对列进行)
1 pandas dataframe实现
df = (df - df.mean()) / df.std()
# df.fillna(df.min(), inplace=True)
# df.fillna(args.nan_sub, inplace=True)
Note: df_norm会保留nan值
2 np实现
df_norm2 = df.apply(lambda x: (x - np.mean(x)) / (np.std(x)))
上面df.std()和np.std()算出来的值不一样,因为np.std()计算的是总体标准差;df.std()计算的是样本标准差,是无偏估计。
3 sklearn实现
以上是关于pandas小记:pandas数据规整化的主要内容,如果未能解决你的问题,请参考以下文章