sklearn 学习

Posted zhouyu0-0

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sklearn 学习相关的知识,希望对你有一定的参考价值。

6.1 pipelines 与复合estimators

6.1.1 pipeline

6.1.1.1 Usage

6.1.1.1.1 创建

Pipeline()或 make_pipeline

6.1.1.1.2 访问步骤

pipe.steps[0]

6.1.1.1.3 嵌套参数

__

6.1.1.2 笔记

6.1.1.3 缓存transformers

6.3 数据处理

6.3.1标准化,去均值和方差缩放

  1. processing.scale() 标准化
  2. StandardScaler().fit(train)获得变换器,可以应用到测试集scaler.transform(test)

    6.3.1.1 缩放到固定range 可以MinMaxScaler或MaxAbsScaler

    6.3.1.2 缩放稀疏数据

    稀疏数据可以用MaxAbsScaler 以及 StandardScaler(但是需要with_mean=False)

6.3.1.3 带着离群值缩放

可以用RobustScaler

6.3.1.4 中心化核矩阵

KernelCenter

6.3.2 非线性变换

6.3.2.1 映射到均匀分布 分位点变换QuantileTransformer 没看懂

6.3.2.2 映射到高斯分布

PowerTransformer提供两个变换

  1. Yeo-Johnson 变换
  2. Box-Cox 变换 智能用于正整数

6.3.3 正则化 这个也没太看懂

6.3.4 编码类特征

  1. OrdinalEncoder 序号编码
  2. OneHotEncoder(categories=[])
    drop 参数没看懂

6.3.5 离散化

6.3.5.1 K-装箱离散

preprocessing.KBinsDiscretizer(n_bins=[],encode=‘ordinal‘)

6.3.5.2 特征二值化

preprocessing.Binarizer(threshold=1.1).fit(X)

6.3.6 操作缺失数据

6.3.7 生成交叉特征

poly = PolynomialFeatures(2)
poly.fit_transform(X)

6.3.8 Custom transformers

transformer = FunctionTransformer(np.log1p, validate=True)

以上是关于sklearn 学习的主要内容,如果未能解决你的问题,请参考以下文章

《Python机器学习及实践》----监督学习经典模型

在下面的代码片段中的剩余 ='passthrough' 处的代码中出现语法错误

《Python机器学习及实践》----模型实用技巧

《Python机器学习及实践》----模型实用技巧

03_有监督学习--简单线性回归模型(调用 sklearn 库代码实现)

Sklearn:如何在庞大的数据集上应用降维?