机器学习基石概述

Posted 桃陉

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习基石概述相关的知识,希望对你有一定的参考价值。


写在前面

本节内容主要是介绍什么是机器学习,以及机器学习在我们日常生活中的常见应用场景,它与我们的生活并不是分离开来互不影响的。最后引申了它与其他领域的一些关系,整体来说,本节内容较为简单。

本文整理自台湾大学林轩田的《机器学习基石》


1.什么是机器学习

∙ \\bullet 机器学习(Machine Learning,简称ML)就是提供给计算机大量的数据,让它分析这些数据得到一些联系并且学会自己处理数据(学会技巧)。

d a t a → [ M L ] → s k i l l data \\to \\begin{bmatrix} ML \\end{bmatrix} \\to skill data[ML]skill

这里有一个形象的比喻来说明:Give a computer a fish, you feed it for a day; teach it how to fish, you feed it for a lifetime.

∙ \\bullet 适合使用的场景。(通过以下三条可以判断能否使用机器学习)

▹ \\triangleright 存在一些潜在的规律。

▹ \\triangleright 难以用普通编程解决。

▹ \\triangleright 存在学习的大量数据。

∙ \\bullet 练习

判断下面哪一条最适合使用机器学习(ML):

a.预测婴儿下次哭泣发生在奇数分钟还是偶数分钟。

b.判断一张图中是否存在一个圆圈。

c.决定是否给一些银行顾客提供信用卡。

d.预测地球会不会因为大量使用核能而毁灭。


对于a,没有明确的规律

对于b,可以很轻易的描述圆圈

对于c,可以通过分析顾客的信息,来判断什么样的顾客可以放心的给信用卡,什么样的顾客不可以给信用卡,所以选c

对于d,没有大量的数据来进行分析


2.ML在日常生活中的应用

data表示需要的数据,skill表示机器学习后得到的技巧。

∙ \\bullet :

▹ \\triangleright data:销售量+顾客评价

▹ \\triangleright skill: 分析得到怎么样搭配好看

∙ \\bullet :

▹ \\triangleright data:一些社交网站上对于餐厅的评价以及餐厅定位。(words+location)

▹ \\triangleright skill:判断哪家餐厅干净卫生好吃,哪家餐厅服务差饭菜差。

∙ \\bullet :

▹ \\triangleright data:已经建好建筑物的特征以及耗能情况。

▹ \\triangleright skill:判断这一栋房子盖好以后的耗能情况。

∙ \\bullet :

▹ \\triangleright data:一些交通标志的图像以及含义。

▹ \\triangleright skill:正确分辨不同标志信号的含义,从而应用于无人驾驶中。

∙ \\bullet 教育:

▹ \\triangleright data:网上答题的正误情况

▹ \\triangleright skill:分析每道题的难度等级,从而给答题者适合他自己的题目。

∙ \\bullet 娱乐:

▹ \\triangleright data:对于电影行业,使用者对不同电影的打分评价。

▹ \\triangleright skill:预测使用者喜欢哪一类型电影,从而进行推荐。


∙ \\bullet 练习

判断哪个领域不能使用机器学习

a.财经

b.医学

c.法律

d.以上领域都可以使用


对于a,预测股票的涨跌,可以使用ML

对于b,可以预测每种药的药效,可以使用ML

对于c,为法律学习者提供学习的摘要,帮助学习,可以使用ML

对于d,所以选d


3.ML的简单组成

∙ \\bullet 简单组成

▹ \\triangleright 输入x

▹ \\triangleright 输出y

▹ \\triangleright 函数 f : x → y f : x \\to y f:xy (理想状态下的函数关系,很难得到)

▹ \\triangleright data (样本数据),D={(x1,y1),(x2,y2),…(xN,yN)}

▹ \\triangleright hypothesis (假设),一个机器学习模型会提供很多的假设,通过演算法A选择一个最接近函数 f 的函数 g 作为表达式。

{ ( x n , y n ) } f r o m   f → [ M L ] → g \\left \\{ (x_{n},y_{n}) \\right \\} from \\ f \\to [ML] \\to g {(xn,yn)}from f[ML]g

∙ \\bullet 练习

如何使用下面这些部分组合成歌曲打分系统的机器模型公式。

S1 = [0,100]

S2 = (使用者名字,歌曲名字)信息

S3 = 对使用者因素与歌曲因素进行相乘,得到一个分数。

S4 = 1,000,000条数据,每条数由((使用者名字,歌曲名字),打分)总成。


a. S1 =x , S2 =y, S3 = H ,S4 = D (H表示假设,D表示数据样本)

b. S1 =y, S2 =x, S3 = H ,S4 = D

c. S1 =D, S2 =H, S3 = y ,S4 = x

d. S1 =x , S2 =D, S3 = y,S4 = H


我们通过分析可以得到S1 为输出y,表示分数,S2为输入x,S3为演算法进行假设H,S4为样本数据data。

S 4 → A o n S 3 ( g : S 2 → S 1 ) S_{4} \\overset{A on S_{3}}{\\rightarrow}(g:S_{2} \\to S_{1}) S4AonS3(g:S2S1)


4.ML与其他领域的联系

∙ \\bullet ML与DM(数据挖掘 Data Mining)

DM是通过数据发现一些有关联的东西,如果要找的就是ML假设里面的关系式g,那么它们就是相同的。如果只是找出一些性质的话,那么ML可以通过性质得出关系式g,此时它们就是相互帮助的关系。

∙ \\bullet ML与AI(人工智能 Artificial Intelligence)

AI就是通过学习变得非常聪明,而ML是通过学习趋向于很聪明,所以从这个角度来看的话,ML是实现AI的一种途径。

∙ \\bullet ML与Statistic(统计)

Statistic就是通过大量的数据推出不知道事情,比如说求丢硬币正反面的概率,这个时候就要用到Statistic。因此可以看出来统计是实现ML的一种方法。

∙ \\bullet 练习

下面哪句话的描述是错误的

a.ML是实现AI的一种方法

b.ML,DM,和Statistic都需要数据

c.DM是ML的另一个名字

d.statistic能帮助DM


很明显我们发现c是错误的,在特定情况下DM和ML是相同的,而其他情况则不同。

以上是关于机器学习基石概述的主要内容,如果未能解决你的问题,请参考以下文章

机器学习基石笔记15——机器可以怎样学得更好

林轩田《机器学习基石》 简介

机器学习基石笔记1

机器学习基石笔记11——机器可以怎样学习

机器学习基石--The Learning Problem

机器学习基石机器学习的可行性