浅谈sklearn中的数据预处理

Posted 2022-06-15 raelum

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了浅谈sklearn中的数据预处理相关的知识，希望对你有一定的参考价值。

前言

sklearn 中的 sklearn.preprocessing 中提供了数据预处理的相关函数，本文将主要围绕特征缩放来展开讲解。

一、标准化（StandardScaler）

设数据矩阵为

$\\beginbmatrix \\boldsymbolx_1^\\mathrm T \\\\ \\boldsymbolx_2^\\mathrm T \\\\ \\vdots \\\\ \\boldsymbolx_n^\\mathrm T \\endbmatrix$

其中 $\\boldsymbolx_i=(x_i1, x_i2,\\cdots,x_id)^\\mathrm T$ 为特征向量。

在进行下一步之前，我们有必要先引入数据矩阵的均值和标准差。

我们知道，对于数据向量 $\\boldsymbola=(a_1,\\cdots,a_n)^\\mathrm T$ 而言（这里的向量可以理解成一组数据，之所以称之为向量，是为了方便后续的表述），其均值和标准差分别为：

$\\mu(\\boldsymbola)=\\fraca_1+\\cdots+a_nn,\\quad\\sigma(\\boldsymbol a)=\\left(\\frac1n \\Vert \\boldsymbola-\\boldsymbol\\mu(\\boldsymbola)\\Vert^2\\right)^1/2,\\quad 其中 \\;\\boldsymbol\\mu(\\boldsymbola)=(\\underbrace\\mu(\\boldsymbola),\\cdots, \\mu(\\boldsymbola)_n 个)^\\mathrm T$

我们将 $X$ 写成行向量的形式： $=(\\boldsymbola_1,\\boldsymbola_2,\\cdots,\\boldsymbola_d)$ ，其中每个 $\\boldsymbola_i$ 均为列向量，因此

$\\beginaligned \\mu(X)&=(\\mu(\\boldsymbola_1),\\mu(\\boldsymbola_2),\\cdots,\\mu(\\boldsymbola_d))^\\mathrm T \\\\ \\sigma(X)&=(\\sigma(\\boldsymbola_1),\\sigma(\\boldsymbola_2),\\cdots,\\sigma(\\boldsymbola_d))^\\mathrm T \\endaligned$

设对 $X$ 进行标准化后得到 $Z$ ，利用 numpy 的广播机制， $Z$ 有如下形式

$Z=(\\boldsymbolz_1,\\boldsymbolz_2,\\cdots,\\boldsymbolz_d),\\quad 其中\\; \\boldsymbolz_i=\\frac\\boldsymbola_i-\\mu(\\boldsymbola_i)\\sigma(\\boldsymbola_i),\\;\\;i=1,2,\\cdots,d$

当然 $Z$ 可以更为简洁地表成

$Z=\\fracX-\\mu(X)^\\mathrm T\\sigma(X)^\\mathrm T$

查看 $X$ 的均值，方差和标准差：

from sklearn.preprocessing import StandardScaler
import numpy as np

# 数据矩阵
X = np.array([
    [1, 3],
    [0, 1]
])
# 创建一个scaler实例并将数据传入该实例中
scaler = StandardScaler().fit(X)
# 查看X的的均值，方差和标准差
print(scaler.mean_)  # [0.5 2. ]
print(scaler.var_)  # [0.25 1.  ]
print(scaler.scale_)  # [0.5 1. ]

之所以标准差为 scale_，是因为标准差控制着我们数据的缩放程度。需要注意的是，如果数据矩阵的某一列方差为 $0$ ，则 scale_ 为 $以上是关于浅谈sklearn中的数据预处理的主要内容，如果未能解决你的问题，请参考以下文章$

浅谈sklearn中的数据预处理

目录

前言

一、标准化（StandardScaler）