代码多来自《Introduction to Machine Learning with Python》. 该文集主要是自己的一个阅读笔记以及一些小思考,小总结。
- 解决的问题是什么?现在收集的数据能够解决目前的问题吗?
- 该问题可以转换成机器学习问题吗?如果可以,具体属于哪一类?监督 or 非监督
- 从数据中抽取哪些特征?足够支持去做预测吗?
- 训练好模型后,如何确保模型是可以信赖的?---是骡子是马牵出来溜溜。
机器学习算法只是处理问题过程中的一个小部分而已! 处理问题时,保持一个大局观,上帝视角,从整个处理流程上看问题,不要只局限于某一个小部分。难道这就是传说中的 牵一发而动全身?
import pandas as pd #数据分析、处理
import numpy as np #科学计算包
import matplotlib.pyplot as plt #画图
%matplotlib inline #显示在Notebook里
from sklearn.datasets import load_iris
iris_dataset = load_iris() #sklearn已经整理了Iris数据集,使用load_iris函数可以直接下载,使用;
- 我们输出看一下:
- 看一下字典的键
print("Keys of iris_dataset:\n{}".format(iris_dataset.keys()))#有5个键;我们逐个看看
Keys of iris_dataset:
dict_keys([‘feature_names‘, ‘target‘, ‘DESCR‘, ‘target_names‘, ‘data‘])
- 逐个看看: 看看DESCR:
print(‘DESCR of iris_dataset:\n{}‘.format(iris_dataset[‘DESCR‘]))#数据集的描述信息;
#4个数值型,用来预测的属性:sepal 长、宽;petal长、宽
Iris Plants Database
Data Set Characteristics:
:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
- sepal length in cm
- sepal width in cm
- petal length in cm
- petal width in cm
- class:
- Iris-Setosa
- Iris-Versicolour
- Iris-Virginica
:Summary Statistics:
============== ==== ==== ======= ===== ====================
Min Max Mean SD Class Correlation
============== ==== ==== ======= ===== ====================
sepal length: 4.3 7.9 5.84 0.83 0.7826
sepal width: 2.0 4.4 3.05 0.43 -0.4194
petal length: 1.0 6.9 3.76 1.76 0.9490 (high!)
petal width: 0.1 2.5 1.20 0.76 0.9565 (high!)
============== ==== ==== ======= ===== ====================
:Missing Attribute Values: None
:Class Distribution: 33.3% for each of 3 classes.
:Creator: R.A. Fisher
:Donor: Michael Marshall (MARSHALL%[email protected])
:Date: July, 1988
print(‘Feature names of iris_dataset:\n{}‘.format(iris_dataset[‘feature_names‘]))#4个特征
Feature names of iris_dataset: [‘sepal length (cm)‘, ‘sepal width (cm)‘, ‘petal length (cm)‘, ‘petal width (cm)‘]
print(‘data of iris_dataset:\n{}‘.format(iris_dataset[‘data‘][:5]))#看数据的前5条;
print(‘shape of iris_dataset:\n{}‘.format(iris_dataset[‘data‘].shape))#data形状:150*4;150条记录,没错
data of iris_dataset:
[[5.1 3.5 1.4 0.2]
[4.9 3. 1.4 0.2]
[4.7 3.2 1.3 0.2]
[4.6 3.1 1.5 0.2]
[5. 3.6 1.4 0.2]]
shape of iris_dataset:
(150, 4)
print(‘target_names of iris_dataset:\n{}‘.format(iris_dataset[‘target_names‘]))#3类
target_names of iris_dataset: [‘setosa‘ ‘versicolor‘ ‘virginica‘]
print(‘target of iris_dataset:\n{}‘.format(iris_dataset[‘target‘][:5]))#全是0;数据是按照类别进行排序的;全是0,全是1,全是2;
print(‘target shape of iris_dataset:\n{}‘.format(iris_dataset[‘target‘].shape))#说明有150个标签,一维数组;
target of iris_dataset:
[0 0 0 0 0]
target shape of iris_dataset:
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(iris_dataset[‘data‘],iris_dataset[‘target‘],
print(‘shape of X_train:{}‘.format(X_train.shape))
print(‘shape of y_train:{}‘.format(y_train.shape))
print(‘shape of X_test:{}‘.format(X_test.shape))
print(‘shape of y_test:{}‘.format(y_test.shape))
shape of X_train:(112, 4)
shape of y_train:(112,)
shape of X_test:(38, 4)
shape of y_test:(38,)
#一般画图使用scatter plot 散点图,但是有一个缺点:只能观察2维的数据情况;如果想观察多个特征之间的数据情况,scatter plot并不可行;
#用pair plot 可以观察到任意两个特征之间的关系图(对角线为直方图);恰巧:pandas的 scatter_matrix函数能画pair plots。
iris_dataframe = pd.DataFrame(X_train,columns=iris_dataset.feature_names)
grr = pd.scatter_matrix(iris_dataframe,c=y_train,figsize=(15,15),marker=‘o‘,hist_kwds={‘bins‘:20},s=60, alpha=.8)#不同颜色代表不同的分类;
可以发现:目前的特征来说,完全可以进行分类。下面就进行模型训练:模型选择最简单的knn k近邻的特殊形式--最近邻(与当前点最近点的类别作为该点的标签)。
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)#设置为最近邻;
KNeighborsClassifier(algorithm=‘auto‘, leaf_size=30, metric=‘minkowski‘,
metric_params=None, n_jobs=1, n_neighbors=1, p=2,
y_pred = knn.predict(X_test)#预测
print(‘Test Set Score:{:.2f}‘.format(np.mean(y_test == y_pred)))#自己计算得分情况;准确率
Test Set Score:0.97
print(‘Test Set Score:{:.2f}‘.format(knn.score(X_test,y_test)))
#我们可以用训练好的模型去应用了:unseen data
X_new = np.array([[5,2.9,1,0.2]]) #新数据 为什么定为2维的? 因为sklearn 总是期望收到二维的numpy数组.
result = knn.predict(X_new)
print(‘Predicted target name:{}‘.format(iris_dataset[‘target_names‘][result]))
Predicted target name:[‘setosa‘]
X_train, X_test, y_train, y_test = train_test_split(
iris_dataset[‘data‘], iris_dataset[‘target‘], random_state=0)
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)
print("Test set score: {:.2f}".format(knn.score(X_test, y_test)))
result = knn.predict(X_new)
- 实例化一个Estimator:分类,回归etc。
- 使用训练集对模型进行训练。fit方法:sklearn算法中几乎都有这个借口;
- score(X_test,y_test):对训练好的模型,做个评估;知道训练结果好坏;
- predict :可以对数据进行预测;这是最终的目的。
再有,从Iris数据分类这个例子来看,我们大部分的精力都用在了对数据的理解和分析上,真正用在 算法训练上的时间反而很少。