机器学习概要

Posted rb26dett

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习概要相关的知识,希望对你有一定的参考价值。

一、机器学习的定义

机器学习是一个很广的研究领域,其实到现在也并没有一个很正式官方的定义,但历史上确有流传下两个比较有名的版本

"Field of study that gives computers the ability to learn without being explicity programmed." —— Arthur.Samuel

这是一个比较老的版本,Ng说这种定义是older and informal,不过我觉得还比较简单好理解,然后下面是比较新比较正式的一个

"A computer program is said to learn from experience E with respect to same class of tasks T and performance at tasks in T, as measured by P, improved with experience E." —— Tom mitchell

这个定义可能稍微抽象一些,举个下棋的例子就是,E代表下了很多盘棋之后程序获得的下棋经验,T代表下棋这个任务,P代表程序在下一局棋中获胜的概率,那么机器学习就是使得一个程序在T这个任务中,性能(通过P来衡量)伴随着E的存在而表现得更好。

二、机器学习的分类

按针对的问题以及算法的不同,我们可以大致将机器学习分为监督学习(Supervised Learning)、非监督学习(Unsupervised Learning),还有强化学习(Reinforcement Learning)和推荐学习系统(Recommender Learning System)等

1.监督学习(Supervised Learning)

监督学习的特点是(1)有一个数据集(2)知道正确的输出应该是什么(3)输入输出之间存在某种关系,这些特点是监督学习和非监督学习不同的地方所在,也是我们分析问题,决定采用何种算法的依据所在,而监督学习又可以分为回归(Regression)分类(Classification),其中回归问题尝试通过连续的输出来预测结果,而分类问题期望得到离散的预测,对目标进行分类。

举个栗子

(1)给你看一张美女照片,喊你猜一下这姑娘多大——这就是回归问题,因为①给你了一个数据集(照片)②已经有人知道正确的输出是多少(至少那姑娘自己该知道吧)③我们知道输入输出之间存在某种关系(废话嘛姑娘的照片啥样肯定和她的年龄有关系呀),好!所以首先这是一个监督学习问题,然后因为要预测的是她的年龄,所以可能的输出是连续的(随便你猜嘛),不是点头摇头就能猜对的,所以这是一个回归问题

(2)你对象问你,你爱不爱我——这就是分类问题,因为①给你了一个数据集(对象)②已经有人知道正确的输出是多少(爱不爱,相信你的心里有tree)③输入输出之间存在某种关系(...),所以这也是一个监督学习问题,然后你要回答爱或不爱(没错标准程序员理工直男思维),只有这两个选项(对应两种结果的分类),所以这就是一个分类问题(其他回答超过本门课程范畴暂不讨论:) )

2.非监督学习(Unsupervised Learning)

非监督学习的特点是(1)允许我们在几乎不知道会出现什么结果的情况下对问题进行探索(2)在我们并不一定知道其中变量(Variables)的意义的情况下,从数据中挖掘出一些结构(Structure)(3)基于数据中变量之间关系对数据进行聚类(Clustering)并得到一种结构(4)对于预测的结果并不存在反馈(Feedback),而非监督学习也可分为聚类(Clustering)非聚类(Non-clustering),聚类对输入数据通过分析划分成不同的类,每个类都具有一定的共性(区别于其他的类别),非聚类是对数据分析发现数据中的一些特点。

再举个栗子

(1)给你一堆猪,有野猪,家猪,小猪佩奇和乔治,让你对这些猪分个类——这是聚类问题,因为①这个问题并没有标准答案(你要是愿意把佩奇和野猪分到一起也不能说有啥不对...emm)②我们可能并不知道划分的依据是什么,就得到了一个结果③聚类过程是根据数据变量间的关系来进行划分的④对于预测结果没有什么反馈,所以首先这是一个非监督学习问题,然后我们就是希望对这些猪做一个聚类,所以很明显就是一个聚类问题啦

(2)这里有一个很有名的例子," The Cocktail Party Algorithm ",大概就是在鸡尾酒聚会上,在嘈杂的环境中分离出了一个人报数的声音(就是所有人都玩的很嗨的时候他在静静的报数)——这就是一个非聚类问题因为①这个问题没有正确答案(我们也不知道事先会分离出什么样的音频)②不知道划分的依据是什么,那些用以划分数据的特征都有什么含义③通过数据中变量特征间的关系来对数据进行分析(这个人声音很独特,每一声报数的韵律也有相似性)④对于结果并没有反馈,我们只是得到了这个结果,所以这也是一个非监督学习问题,再因为它的目的并不是对数据进行一个聚类划分,而是从数据中提取到某些特征,所以这是一个非聚类问题

3.强化学习和推荐系统

(本人学识浅薄,尚未涉及,所以无从说起,就给出维基百科上的定义大家参考参考)

(1)强化学习(Reinforcement learning)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。

强化学习和标准的监督学习之间的区别在于,它并不需要出现正确的输入/输出对,也不需要精确校正次优化的行为。强化学习更加专注于在线规划,需要在探索(在未知的领域)和遵从(现有知识)之间找到平衡。

(2)推荐系统(Recommender Learning System)是一种信息过滤系统,用于预测用户对物品的“评分”或“偏好”。

推荐系统近年来非常流行,应用于各行各业。推荐的对象包括:电影、音乐、新闻、书籍、学术论文、搜索查询、分众分类、以及其他产品。也有一些推荐系统专门为寻找专家、合作者、笑话、餐厅、美食、金融服务、生命保险、网络交友,以及Twitter页面设计。

三、关于机器学习

本文对机器学习的大致几个方向做了介绍,但其中知识之广之深可能穷其一生也无法知晓,只是以此作为无涯学海的开头,愿你我共在时间的滚滚巨轮上摸爬滚打,留下自己的痕迹。

如果说把AI具象化为一个人,那么正是机器学习成就了他的智慧,其中深度学习就像他的大脑,计算机视觉是他的眼眸,还有自然语言处理,语音识别等等,机器学习没有完美之说,只有不断突破上限,我们目睹近年来AI的火热,机器学习重振雄风,一马当先,我期待着它带给我更多惊喜,但是越往前走,眼看着摆在我们面前的确是机器学习解决不了的哲学伦理问题...我总是期盼着它能造福人类,为我们带来幸福,可未来如何,谁又知道,且让我们拭目以待(嗯额以上言论纯属扯淡,与正文无关嘻嘻)

以上是关于机器学习概要的主要内容,如果未能解决你的问题,请参考以下文章

[编程]-机器学习-SVM

掌握Spark机器学习库 大数据开发技能更进一步

从机器学习谈起

从机器学习谈起

转载机器学习如门概览

掌握Spark机器学习库 大数据开发技能更进一步视频教程