Python数据挖掘课程五.线性回归知识及预测糖尿病实例
Posted Eastmount
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python数据挖掘课程五.线性回归知识及预测糖尿病实例相关的知识,希望对你有一定的参考价值。
今天主要讲述的内容是关于一元线性回归的知识,Python实现,包括以下内容:
1.机器学习常用数据集介绍
2.什么是线性回顾
3.LinearRegression使用方法
4.线性回归判断糖尿病
前文推荐:
【Python数据挖掘课程】一.安装Python及爬虫入门介绍
【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍
【Python数据挖掘课程】三.Kmeans聚类代码实现、作业及优化
【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析
希望这篇文章对你有所帮助,尤其是刚刚接触数据挖掘以及大数据的同学,同时准备尝试以案例为主的方式进行讲解。如果文章中存在不足或错误的地方,还请海涵~
同时这篇文章是我上课的内容,所以参考了一些知识,强烈推荐大家学习斯坦福的机器学习Ng教授课程和Scikit-Learn中的内容。由于自己数学不是很好,自己也还在学习中,所以文章以代码和一元线性回归为主,数学方面的当自己学到一定的程度,才能进行深入的分享及介绍。抱歉~
一. 数据集介绍
1.diabetes dataset数据集
数据集参考:http://scikit-learn.org/stable/datasets/
这是一个糖尿病的数据集,主要包括442行数据,10个属性值,分别是:Age(年龄)、性别(Sex)、Body mass index(体质指数)、Average Blood Pressure(平均血压)、S1~S6一年后疾病级数指标。Target为一年后患疾病的定量指标。
输出如下所示:
# -*- coding: utf-8 -*-
"""
Created on Thu Oct 27 02:37:05 2016
@author: yxz15
"""
from sklearn import datasets
diabetes = datasets.load_diabetes() #载入数据
print diabetes.data #数据
print diabetes.target #类标
print u'总行数: ', len(diabetes.data), len(diabetes.target) #数据总行数
print u'特征数: ', len(diabetes.data[0]) #每行数据集维数
print u'数据类型: ', diabetes.data.shape #类型
print type(diabetes.data), type(diabetes.target) #数据集类型
"""
[[ 0.03807591 0.05068012 0.06169621 ..., -0.00259226 0.01990842
-0.01764613]
[-0.00188202 -0.04464164 -0.05147406 ..., -0.03949338 -0.06832974
-0.09220405]
...
[-0.04547248 -0.04464164 -0.0730303 ..., -0.03949338 -0.00421986
0.00306441]]
[ 151. 75. 141. 206. 135. 97. 138. 63. 110. 310. 101.
...
64. 48. 178. 104. 132. 220. 57.]
总行数: 442 442
特征数: 10
数据类型: (442L, 10L)
<type 'numpy.ndarray'> <type 'numpy.ndarray'>
"""
2.sklearn常见数据集
常见的sklearn数据集包括,强烈推荐下面这篇文章:
http://blog.csdn.net/sa14023053/article/details/52086695
sklearn包含一些不许要下载的toy数据集,见下表,包括波士顿房屋数据集、鸢尾花数据集、糖尿病数据集、手写字数据集和健身数据集等。
以上是关于Python数据挖掘课程五.线性回归知识及预测糖尿病实例的主要内容,如果未能解决你的问题,请参考以下文章