机器学习基石概述
Posted 桃陉
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习基石概述相关的知识,希望对你有一定的参考价值。
写在前面
本节内容主要是介绍什么是机器学习,以及机器学习在我们日常生活中的常见应用场景,它与我们的生活并不是分离开来互不影响的。最后引申了它与其他领域的一些关系,整体来说,本节内容较为简单。
本文整理自台湾大学林轩田的《机器学习基石》
1.什么是机器学习
∙ \\bullet ∙ 机器学习(Machine Learning,简称ML)就是提供给计算机大量的数据,让它分析这些数据得到一些联系并且学会自己处理数据(学会技巧)。
d a t a → [ M L ] → s k i l l data \\to \\begin{bmatrix} ML \\end{bmatrix} \\to skill data→[ML]→skill
这里有一个形象的比喻来说明:Give a computer a fish, you feed it for a day; teach it how to fish, you feed it for a lifetime.
∙ \\bullet ∙ 适合使用的场景。(通过以下三条可以判断能否使用机器学习)
▹ \\triangleright ▹ 存在一些潜在的规律。
▹ \\triangleright ▹ 难以用普通编程解决。
▹ \\triangleright ▹ 存在学习的大量数据。
∙ \\bullet ∙ 练习
判断下面哪一条最适合使用机器学习(ML):
a.预测婴儿下次哭泣发生在奇数分钟还是偶数分钟。
b.判断一张图中是否存在一个圆圈。
c.决定是否给一些银行顾客提供信用卡。
d.预测地球会不会因为大量使用核能而毁灭。
对于a,没有明确的规律
对于b,可以很轻易的描述圆圈
对于c,可以通过分析顾客的信息,来判断什么样的顾客可以放心的给信用卡,什么样的顾客不可以给信用卡,所以选c
对于d,没有大量的数据来进行分析
2.ML在日常生活中的应用
data表示需要的数据,skill表示机器学习后得到的技巧。
∙
\\bullet
∙ 衣
:
▹ \\triangleright ▹ data:销售量+顾客评价
▹ \\triangleright ▹ skill: 分析得到怎么样搭配好看
∙
\\bullet
∙ 食
:
▹
\\triangleright
▹ data:一些社交网站上对于餐厅的评价
以及餐厅定位
。(words+location)
▹ \\triangleright ▹ skill:判断哪家餐厅干净卫生好吃,哪家餐厅服务差饭菜差。
∙
\\bullet
∙ 住
:
▹ \\triangleright ▹ data:已经建好建筑物的特征以及耗能情况。
▹ \\triangleright ▹ skill:判断这一栋房子盖好以后的耗能情况。
∙
\\bullet
∙ 行
:
▹ \\triangleright ▹ data:一些交通标志的图像以及含义。
▹ \\triangleright ▹ skill:正确分辨不同标志信号的含义,从而应用于无人驾驶中。
∙
\\bullet
∙ 教育
:
▹ \\triangleright ▹ data:网上答题的正误情况
▹ \\triangleright ▹ skill:分析每道题的难度等级,从而给答题者适合他自己的题目。
∙
\\bullet
∙ 娱乐
:
▹ \\triangleright ▹ data:对于电影行业,使用者对不同电影的打分评价。
▹ \\triangleright ▹ skill:预测使用者喜欢哪一类型电影,从而进行推荐。
∙ \\bullet ∙ 练习
判断哪个领域不能使用机器学习
a.财经
b.医学
c.法律
d.以上领域都可以使用
对于a,预测股票的涨跌,可以使用ML
对于b,可以预测每种药的药效,可以使用ML
对于c,为法律学习者提供学习的摘要,帮助学习,可以使用ML
对于d,所以选d
3.ML的简单组成
∙ \\bullet ∙ 简单组成
▹ \\triangleright ▹ 输入x
▹ \\triangleright ▹ 输出y
▹ \\triangleright ▹ 函数 f : x → y f : x \\to y f:x→y (理想状态下的函数关系,很难得到)
▹ \\triangleright ▹ data (样本数据),D={(x1,y1),(x2,y2),…(xN,yN)}
▹ \\triangleright ▹ hypothesis (假设),一个机器学习模型会提供很多的假设,通过演算法A选择一个最接近函数 f 的函数 g 作为表达式。
{ ( x n , y n ) } f r o m f → [ M L ] → g \\left \\{ (x_{n},y_{n}) \\right \\} from \\ f \\to [ML] \\to g {(xn,yn)}from f→[ML]→g
∙ \\bullet ∙ 练习
如何使用下面这些部分组合成歌曲打分系统的机器模型公式。
S1 = [0,100]
S2 = (使用者名字,歌曲名字)信息
S3 = 对使用者因素与歌曲因素进行相乘,得到一个分数。
S4 = 1,000,000条数据,每条数由((使用者名字,歌曲名字),打分)总成。
a. S1 =x , S2 =y, S3 = H ,S4 = D (H表示假设,D表示数据样本)
b. S1 =y, S2 =x, S3 = H ,S4 = D
c. S1 =D, S2 =H, S3 = y ,S4 = x
d. S1 =x , S2 =D, S3 = y,S4 = H
我们通过分析可以得到S1 为输出y,表示分数,S2为输入x,S3为演算法进行假设H,S4为样本数据data。
S 4 → A o n S 3 ( g : S 2 → S 1 ) S_{4} \\overset{A on S_{3}}{\\rightarrow}(g:S_{2} \\to S_{1}) S4→AonS3(g:S2→S1)
4.ML与其他领域的联系
∙ \\bullet ∙ ML与DM(数据挖掘 Data Mining)
DM是通过数据发现一些有关联的东西,如果要找的就是ML假设里面的关系式g,那么它们就是相同的。如果只是找出一些性质的话,那么ML可以通过性质得出关系式g,此时它们就是相互帮助的关系。
∙ \\bullet ∙ ML与AI(人工智能 Artificial Intelligence)
AI就是通过学习变得非常聪明,而ML是通过学习趋向于很聪明,所以从这个角度来看的话,ML是实现AI的一种途径。
∙ \\bullet ∙ ML与Statistic(统计)
Statistic就是通过大量的数据推出不知道事情,比如说求丢硬币正反面的概率,这个时候就要用到Statistic。因此可以看出来统计是实现ML的一种方法。
∙ \\bullet ∙ 练习
下面哪句话的描述是错误的
a.ML是实现AI的一种方法
b.ML,DM,和Statistic都需要数据
c.DM是ML的另一个名字
d.statistic能帮助DM
很明显我们发现c是错误的,在特定情况下DM和ML是相同的,而其他情况则不同。
以上是关于机器学习基石概述的主要内容,如果未能解决你的问题,请参考以下文章