ML学习笔记 0 之综述

Posted 2022-03-07 彭宇成

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了ML学习笔记 0 之综述相关的知识，希望对你有一定的参考价值。

场景

这几个月断断续续学了一下吴恩达在coursera上发布的机器学习教程？国内的网络被墙了，看不了，花钱买了一个翻墙软件，终于可以看了，但网速太慢：学点东西真不容易。昨天晚上终于找到了一个地方，可以下载，可以下载，可以下载 - 开心！于是，果断又将第一周课程的第一部分看了好几篇。ok,从今天开始进入机器学习的学习与博客记录阶段:通过复述与简要概述作者的话，形成自己的机器学习体系 - 啊，进步的味道

笔记

一、引言

1.1 欢迎

机器学习无处不在。你我周围很多的应用程序或多或少的应用了机器学习的某个算法来使自己变得更加聪明，eg、百度搜索、今日头条的千人千面、电子邮件客户端：

1-1 foxmail的垃圾邮件过滤算法
如上图示，你把不感兴趣的邮件,比如广告邮件标识为垃圾邮件。这样， Foxmail 后续收到类似（应该就是，邮件中出现某些关键词，比如说‘广告’等）的邮件，就直接放到‘垃圾邮件’这个分类里去了。下面通过一张图来对比人脑学习与机器学习过程：

1-2 人脑&机器学习过程对比由图可知，机器学习关键在于收集历史数据，然后训练出一个合适的模型。机器学习岗位需求量很大。这个就不用多说了，马化腾、李彦宏天天在提 Mobile first => AI first 。

1.2 监督学习-supervised learning

机器学习算法，根据是否需要提供正确的样本，可分为监督学习、无监督学习等。这里的监督就是指我们要告诉学习算法一些正确的样本数据，然后学习算法根据这些样本数据作出预测。举两个案例加以说明：

房价预测

1-3 某地区房价预测模型如上图示，先收集某地区一批真实的房产价格数据（right answers，在图中标识为红色的叉叉）。然后用直线或者二次函数模型去拟合这些红叉叉，进而根据拟合的模型去预测新的房屋价格。根据预测结果是否连续，可以将监督学习算法分成两大类：回归-Regression ：预测结果是连续的，比如，房价预测案例。分类-Classification ：预测结果是离散的，比如，下面要写的肿瘤性质判断场景：

肿瘤良、恶性判断

1-4 肿瘤性质图示这里，通过 Age-患者的年龄与Tumor Size-肿瘤大小两个特征来刻画肿瘤性质的概率。三个、五个甚至无数个特征值的情况要怎么处理呢？ “支持向量机，里面有一个巧妙的数学技巧，能让计算机处理无限多个特征”。下面通过一个题目来巩固一下回归与分类的概念：

由于问题1要预测未来三个月能卖出多少商品，由于卖出的商品数是连续的(虽然不是严格意义上的连续)，故属于回归问题；问题2预测的是0、1问题(hacked/compromised)，故属于分类问题

1.3 无监督学习-unsupervised learning

监督学习里的样本集有标签，比如肿瘤是良性还是恶性，而非监督学习集中的样本集没有任何标签，只是一堆数据。无监督学习就是从一堆没有标签的数据集中找出某种结构，并按照不同的结构分成不同的聚集簇。举两个例子：
1）谷歌新闻板块，每天从web上爬取大量的网页信息，然后按照不同的主题分类，组成有关联的新闻 - 这里谷歌的学习算法从大量的新闻数据集中，自动的按主题分类就一个无监督学习的业务场景。
2 ) 鸡尾酒宴问题
一首音乐作品中往往汇有多种乐器伴奏，比如汪峰的《像个孩子》中就有电吉他、钢琴、架子鼓等。怎么从这首歌曲中单独剥离出吉他与钢琴的声音？用无监督学习算法就可以做到：

[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x');

基于matlab来搞的话，上面的一行代码就可以搞定。
这里，考虑到学习与工作效率，吴大师强烈建议同学们先用Octave或者Matlab建立原始模型，并测试通过以后，再用具体的编程语言去实现。

1.4 Other

增强学习与推荐系统

单变量线性回归-Linear Regression With One Variable

假设-Hypothesis

如图 1-2 所示，机器学习的关键在与找到一个合适的模型即这里要写的 Hypothesis（简记为 h，如下图 2-1所示）。模型即数学里的公式，有线性的、非线性的。简单起见，这里假设房屋模型是简单的一元线性模型。

2-1 一元线性模型 h(x) 的表示（一）

2-2 一元线性模型 h(x) 的表示（二）说明： 1） x : "input" variable/features 2 ) y : "output" variable 3 ) m : 房价样本个数； θ : 模型参数问题来了，如何求出模型参数 θ 的值呢？ ### 代价函数-Cost function 求房价模型的一个基本原则是，尽可能让直线穿过多的样本数据：