sklearn

Posted cloris-zhang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了sklearn相关的知识,希望对你有一定的参考价值。

一、获取数据

1.导入数据:

from sklearn import datasets

 

 

from sklearn import datasets

iris=datasets.load_iris()     #导入数据集

x=iris.data                  #获得特征向量

y=iris.target                   #获得样本lable

2.

from sklearn.datasets.samples_generator import make_classification
 
X, y = make_classification(n_samples=6, n_features=5, n_informative=2, 
    n_redundant=2, n_classes=2, n_clusters_per_class=2, scale=1.0, 
    random_state=20)
 
# n_samples:指定样本数
# n_features:指定特征数
# n_classes:指定几分类
# random_state:随机种子,使得随机状可重

 

二、数据预处理

2.1 数据归一化(使得训练数据的标准化规则与测试数据的标准化规则同步)

from sklearn import preprocessing
data = [[0, 0], [0, 0], [1, 1], [1, 1]]
# 1. 基于mean和std的标准化
scaler = preprocessing.StandardScaler().fit(train_data)
scaler.transform(train_data)
scaler.transform(test_data)
 
# 2. 将每个特征值归一化到一个固定范围
scaler = preprocessing.MinMaxScaler(feature_range=(0, 1)).fit(train_data)
scaler.transform(train_data)
scaler.transform(test_data)
#feature_range: 定义归一化范围,注用()括起来

 

2.2 数据正则化(使得训练数据的标准化规则与测试数据的标准化规则同步,最终使得每个样本的范数都为1。)

>>> X = [[ 1., -1.,  2.],
...      [ 2.,  0.,  0.],
...      [ 0.,  1., -1.]]
>>> X_normalized = preprocessing.normalize(X, norm=‘l2‘)
 
>>> X_normalized                                      
array([[ 0.40..., -0.40...,  0.81...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 0.  ...,  0.70..., -0.70...]])

2.3 one-shot编码

one-hot编码是一种对离散特征值的编码方式,在LR模型中常用到,用于给线性模型增加非线性能力。

data = [[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]
encoder = preprocessing.OneHotEncoder().fit(data)
enc.transform(data).toarray()

以上是关于sklearn的主要内容,如果未能解决你的问题,请参考以下文章

用pickle加速sklearn/机器学习的分类任务?

将 Sklearn GridSearchCV 与 Pipeline 一起使用时如何传递权重

用于 R 的可训练 sklearn StandardScaler

为啥这段代码不用import sklearn就可以使用sklearn函数?

《Python机器学习及实践》----监督学习经典模型

《Python机器学习及实践》----监督学习经典模型