吴恩达《机器学习系列课程》学习笔记：监督学习

Posted 2022-06-16 唐门教主

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了吴恩达《机器学习系列课程》学习笔记：监督学习相关的知识，希望对你有一定的参考价值。

吴恩达的课程会很偏于用实例来掌握理论知识，不过看着还是有些云里雾里，倒是杉山将的《图解机器学习》介绍得更易懂些。

在此进行结合学习。

有求知欲的学生从老师那里获取知识、信息，老师提供对错指示、告知最终答案的学习过程。在机器学习里，学生对应于计算机，老师则对应于周围的环境。 根据在学习过程中所获得的经验、技能，对没有学习过的问题也可以做出正确解答，使计算机获得这种泛化能力，是监督学习的最终目标。

监督学习，在手写文字识别、声音处理、图像处理、垃圾邮件分类与拦截、网页检索、基因诊断以及股票预测等各个方面，都有着广泛的引用。

这类机器学习的典型任务包括：预测数值型数据的回归、预测分类标签的分类、预测顺序的排序等。

简单而言，就是初高中时上课，老师上课教知识点讲过程，学生不仅学会了，还能够举一反三。

在没有老师的情况下，学生自学的过程。

在机器学习里，基本都是计算机在互联网中自动收集信息，并从中获取有用信息。无监督学习不仅仅局限于解决像监督学习那样的有明确答案的问题，因此，它的学习目标可以不必十分明确。

无监督学习在人造卫星故障诊断、视频分析、社交网站解析和声音信号解析等方面大显身手的同时，在数据可视化以及作为监督学习方法的前处理工具方面，也有广泛的应用。

这类机器学习的典型任务有聚类、异常检测等。

是指在没有老师提示的情况下，自己对预测的结果进行评估的方法。通过这样的自我评估，学生为了获得老师的最高嘉奖而不断地进行学习。

强化学习被认为是人类主要的学习模式之一。

强化学习，在机器人的自动控制、计算机游戏中的人工智能、市场战略的最优化等方面均有着广泛应用。

在强化学习中经常会用到回归、分类、聚类和降维等各种各样的机器学习算法。

第三节：听吴恩达讲监督学习

前不久，一个学生从俄勒冈的波特兰市收集数据，假设绘制了一个数据集，如下所示：

那么，假设你的朋友有一栋 750 平方英尺的房子，他想要卖掉这个房子，想知道能卖多少钱，学习算法能如何帮助我们？

吴恩达表示，学习算法能做到的一件事就是，根据数据画一条直线，或者说就是用一条直线拟合数据，基于此可以推测房子大概能卖 15 万美元：

不过，这并不是能使用的唯一的学习算法，还有一个更好的：例如除了用一条直线拟合数据，还可以用二次函数或二阶多项式（即二次方程）来拟合数据会更好。

根据二次方程的曲线，如下所示，我们可以在这个点推测出，能卖接近 20 万美元。

那么，摆在面前的有两种方案，如何选择，如何决定？是用直线还是用二次函数来拟合数据？后面会具体讨论。

监督学习是指我们给算法一个数据集，其中包含了正确答案。

在这个例子中，我们给出了一个房价数据集，在这个数据集中每个样本，我们都给出正确的价格，即这个房子的实际卖价。算法的目的就是给出更多的正确答案，例如为朋友想要卖掉的这所房子给出估价。

用更专业的术语定义，这就是「回归问题」。

这里的回归问题指的是：我们想要预测连续的数值输出（即价格），一般房子的价格会记到美分，因此价格实际上是一个离散值，但通常我们认为房价是一个实数、标量或连续值。「回归」这个术语是指我们设法预测连续值的属性。

假设你想看医疗记录，并且设法预测乳腺癌是恶性的还是良性的。假设有人发现了一个乳腺肿瘤，恶性的就是有害并十分危险，良性的就是无害的。我们来看收集到的数据集，假设在数据集中，横轴是肿瘤的尺寸，纵轴 0 和 1 分别代表 No 和 Yes，即不是或是恶性肿瘤，恶性（1），良性（0）。

假设我们的数据集就像这样 —— 在 0 的位置有 5 个样本，在 1 的位置也有 5 个样本。

这时，有个朋友很不幸地患了乳腺肿瘤，假设她的乳腺肿瘤的大小可能在下图这个值的附近，机器学习的问题就是，你能否估计出肿瘤是良性还是恶性的概率？用更专业的术语来讲，这就是一个分类问题。

以上是关于吴恩达《机器学习系列课程》学习笔记：监督学习的主要内容，如果未能解决你的问题，请参考以下文章