pandas小记:pandas数据规整化

Posted -柚子皮-

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pandas小记:pandas数据规整化相关的知识,希望对你有一定的参考价值。

http://blog.csdn.net/pipisorry/article/details/39506169

        数据分析和建模方面的大量编程工作都是用在数据准备上的:加载、清理、转换以及重 塑。有时候,存放在文件或数据库中的数据并不能满足数据处理应用的要求。

        pandas和Python标准库提供了一组高级的、灵活的、高效的核心函数和算法,它们能够轻松地将数据规整化为正确的形式。

数据正则化data normalization

min-max标准化(对列进行)

df_norm = (df - df.min()) / (df.max() - df.min())

或者df_norm2=df.apply(lambda x: (x - np.min(x)) / (np.max(x) - np.min(x)))

Z-score标准化(对列进行)

1 pandas dataframe实现

df = (df - df.mean()) / df.std()
# df.fillna(df.min(), inplace=True)
# df.fillna(args.nan_sub, inplace=True)

Note: df_norm会保留nan值

2 np实现

df_norm2 = df.apply(lambda x: (x - np.mean(x)) / (np.std(x)))

上面df.std()和np.std()算出来的值不一样,因为np.std()计算的是总体标准差;df.std()计算的是样本标准差,是无偏估计。

3 sklearn实现

以上是关于pandas小记:pandas数据规整化的主要内容,如果未能解决你的问题,请参考以下文章

利用python进行数据分析之数据规整化

数据规整:聚合合并和重塑 Pandas

Panda的学习之路——pandas选择数据

根据其他列向 Panda 数据框添加新列

数据规整化——合并

Panda to Panda.Dataframe?