机器学习入门系列三(关键词:逻辑回归,正则化)

Posted walegahaha

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习入门系列三(关键词:逻辑回归,正则化)相关的知识,希望对你有一定的参考价值。

一、逻辑回归

1.逻辑回归

什么是逻辑回归问题,通俗地讲就是监督下的分类问题。通过前面的学习,我们已经掌握如何解决线性(非线性)回归的问题。那面对分类问题我们是否也可以用线性回归呢?简单起见,我们先讨论二元分类,首先让我们来看一个例子,肿瘤的大小与是否是恶性的关系,其中红色的 × 表示肿瘤大小,对应的 y 轴表示是否为恶性。

我们对数据进行线性回归,得到了一条很完美的直线。我们可以规定,当拟合出来的y值大于0.5时,为恶性1;当 y 值小于0.5时,为良性0。这一切看起来似乎很合理,当我们增加一个数据,即有一个肿瘤非常大,显然它是恶性的,但是再用线性回归时,我们可以发现为了去更好地拟合,直线的斜率变低,0.5不再是恶性与良性的分界线。除了这个问题之外,我们知道y的可取值应该是 [0,1] ,而采用线性回归我们发现y的可取值是 [,+] 。这一系列的问题就促使我们希望寻求一个新的方法来解决分类问题。

2.假设表示

在线性回归问题中,我们定义了

hθ(x)=θTx(1) 在分类问题中,我们改变该函数,增加一个作用函数,即 hθ(x)=g(θTx)(2) 其中 g(z) 为sigmoid函数 g(z)=11+ez(3)
那么把式(3)代入式(2),得 hθ(x)=11+eθTx(4) 为什么要使用sigmoid函数?有一系列的数学原因,感兴趣的可以搜索广义线性模型,在这里就不阐述原因了。我们来直观地感受一下sigmoid函数,当 z 时, g0 ;当 z+ 时, g1

下面我们对 hθ(x) 输出的结果做一个解释。由于它的取值范围,我们可以把它理解为概率。若 hθ(x)=0.7 ,在二元分类(本例)中即表示肿瘤在输入变量 x 下为恶性(y=1)的概率为 70% 。由于是二元分类, y 取值不是0就是1,因此肿瘤为良性(y=0)的概率为 170%=30%
由于sigmoid函数的性质,且 hθ(x)(0,1) ,我们认为当 hθ(x)0.5 时,我们把数据 x 预测为类1即y=1;当 hθ(x)<0.5 时,我们把数据 x 预测为类0即y=0。因此当 θTx0 时,预测为类1;当 θTx<0 时,预测为类0。

3.决策边界

既然是分类问题,那么对于二分类, hθ(x) 一定可以做出一个决策边界,当数据集在某一侧时预测为类1,在另一侧时预测为类0。为了更直观地理解,我们来看一个这样一个例子,训练集分为两类,其中红叉表示一类,蓝圈表示另一类。

对于

hθ(x)=斯坦福大学Andrew Ng - 机器学习笔记 -- 逻辑回归 & 正则化

吴恩达机器学习-3-逻辑回归与正则化问题

机器学习-正则化+回归与分类辨析

机器学习算法概述第一章——线性回归

机器学习实战之Logistic回归

机器学习入门系列06,Logistic Regression逻辑回归