吴恩达机器学习笔记-第三周

Posted 2020-10-31 jiangxinyang

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了吴恩达机器学习笔记-第三周相关的知识，希望对你有一定的参考价值。

六、逻辑回归

6.1 分类问题

对于二分类问题，我们一般将结果分为0/1，在理解逻辑回归时可以引入感知机，感知机算是很早的分类器，但因为感知机是分布函数，也就是输出的值小于某一临界值，则分为-1，大于某一临界值，则分为1，但由于其在临界点处不连续，因此在数学上不好处理，而且感知机分类比较粗糙，无法处理线性不可分的情况，因此引入了逻辑回归，逻辑回归相当于用一个逻辑函数来处理回归的值，导致最终输出的值在[0, 1]范围内，输入范围是?∞→+∞，而值域光滑地分布于0和1之间。

技术分享图片

小于0.5的分为0类，大于0.5的分为1类。

6.2 hypothesis

逻辑回归的hypothesis可以表示为hθ(x)=g(θTX)

一般来说判定一个hypothesis的好坏都是看其代价函数是否足够小（当然在后面我们会看到代价函数并不是最小就一定合适，因为这样很可能会造成过拟合），

在这里m表示数据集中数据的个数，n表示数据集的维度

现在我们来看看怎么建立逻辑回归的代价函数，因为逻辑回归的y输出的值只有0和1，因此用欧氏距离来表示其代价函数的话所获得的函数为非凸函数，无法通过梯度下降法获得其最小值，

技术分享图片

如上左图所示，欧氏距离表示的逻辑回归的代价函数曲线图，从曲线上看存在很多局部凸优化的点（即导数为0的点），无法下降到最低点，因此我们要根据逻辑回归的特点建立起代价函数

线性回归的代价函数为： $J (θ) = \frac{1}{m} \sum_{i = 1}^{m} \frac{1}{2} {(h_{θ} (x^{(i)}) - y^{(i)})}^{2}$

技术分享图片

用cost（hθ(x), y）来表示hθ(x) 和y之间的误差， cost函数和hθ(x)的关系如下图所示，当y=1时，hθ(x)=1，cost函数等于0，hθ(x)=0, cost函数接近于正无穷，

技术分享图片

我们将上面的分步函数cost整合一下表示为Cost(hθ(x),y)=?y×log(hθ(x))?(1?y)×log(1?hθ(x))，将cost函数代入到代价函数中可以得到，J(θ)=1/m∑i=1m[?y(i)log(hθ(x(i)))?(1?y(i))log(1?hθ(x(i)))]

得到上述的代价函数后我们就可以得到其运用梯度下降来求其最小值，求导的时候可以将log看作ln，并不会影响最终的结果，这样可以得到梯度下降的模型

Repeat {
$θ_{j} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}$

$θ_{j} := θ_{j} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)}$

在处理上述问题的时候我们可以借助二分类来训练多个分类器处理多分类问题，原理很简单，如下图所示，当你在训练三角形的分类器时，可以将不属于三角形的归为负类（y=0，在这里我们采用逻辑回归来做二分类的问题），而属于三角形的归为正类（y=1），

然后对于圆形和正方形依次同样处理，对于多分类问题，所需要的分类器的个数和类别的个数一样，我们可以将该分类器集合表示为hθ(x)，那最终我们怎么判别测试点该分为那个类别呢？我们可以将该测试点依次用上述的分类器集合中的分类器来进行判别，然后输入概率最大（即在进行多个分类器分类时被输出的次数最多的那一类）的那个类别。因此会处理二分类问题，就可以处理多分类的问题了。

技术分享图片