有监督学习和无监督学习算法怎么理解?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了有监督学习和无监督学习算法怎么理解?相关的知识,希望对你有一定的参考价值。
在判断是有监督学习还是在无监督学习上,我们可以具体是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为
参考技术A 在判断是有监督学习还是在无监督学习上,我们可以具体是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。什么是学习(learning)?
一个成语就可概括:举一反三。机器学习的思路有点类似高考一套套做模拟试题,从而熟悉各种题型,能够面对陌生的问题时算出答案。
简而言之,机器学习就是看能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考题目),而这种根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。
常用的无监督学习算法主要有三种:聚类、离散点检测和降维,包括主成分分析方法PCA等,等距映射方法、局部线性嵌入方法、拉普拉斯特征映射方法、黑塞局部线性嵌入方法和局部切空间排列方法等。
从原理上来说,PCA等数据降维算法同样适用于深度学习,但是这些数据降维方法复杂度较高,所以现在深度学习中采用的无监督学习方法通常采用较为简单的算法和直观的评价标准。比如无监督学习中最常用且典型方法聚类。
在无监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构给定数据。这时就需要某种算法帮助我们寻找一种结构。
监督学习(supervised learning),是从给定的有标注的训练数据集中学习出一个函数(模型参数),当新的数据到来时可以根据这个函数预测结果。 常见任务包括分类与回归。
无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。比如,一组颜色各异的积木,它可以按形状为维度来分类,也可以按颜色为维度来分类。(这一点比监督学习方法的用途要广。如分析一堆数据的主分量,或分析数据集有什么特点都可以归于无监督学习方法的范畴) ,而有监督学习则是通过已经有的有标签的数据集去训练得到一个最优模型。
机器学习中的标签数据和无标签数据
今天在数据人网上看到一篇文章。区分监督学习和无监督学习,监督学习的数据就是有标签数据,无监督学习的数据就是无标签数据。这是我的理解,欢迎指教。
原文链接http://www.shujuren.org/article/62.html 原文如下
监督式和非监督式机器学习算法
作者 Frankchen
什么是监督式机器学习,它与和非监督式机器学习有什么关联呢?
本文中你将了解到监督式学习,非监督式学习和半监督式学习在阅读本文之后你将知道如下知识:
- 有关分类和回归的监督式学习问题
- 关于聚类和关联非监督式学习问题
- 用于监督式和非监督式问题的Example算法案例
- 半监督式学习介于监督式和非监督式学习之间
让我们开始吧。
监督式机器学习
实际应用中的机器学习在大部分情况下我们都会使用监督式学习。
监督式学习指的是你拥有一个输入变量(x)(x)和一个输出变量(Y)(Y),使用某种算法去学习从输入到输出的映射函数
Y=f(X)Y=f(X)
我们的目标是足够好的近似映射函数,以便当我们在新的数据$(x)$上可以预测输出变量(Y)(Y)。
这种学习方式就称之为监督式学习,因为算法学习从训练数据集学习的过程可以被看成类似于一名教师在监督学习学习的过程。我们已经知道了正确的答案,而算法不断迭代来对训练数据做出预测同时不断被一名教师修正。当算法达到一个可接受程度的表现时学习过程停止。
监督式学习问题可以进一步被分为回归和分类问题
- 分类:分类问题指的是当输出变量属于一个范畴,比如“红色”和“蓝色”或者“生病”和“未生病”。
- 回归:回归问题指的是输出变量是一个实值,比如“价格”和“重量”
还有一些种类的问题建立在分类和回归之上,包括推荐问题和时序预测
一些流形的监督式机器学习算法的例子:
回归问题中的线性回归
分类和回归问题中的随机森林
分类问题中的支持向量机
非监督式机器学习
非监督式学习指的是我们只拥有(X)(X)但是没有相关的输出变量。
非监督式学习的目标是对数据中潜在的结构和分布建模,以便对数据作更进一步的学习。
这种学习方式就称为非监督式学习,因为其和监督式学习不同,对于学习并没有确切的答案和学习过程也没有教师监督。算法独自运行以发现和表达数据中的有意思的结构。
非监督式学习问题可以进一步分为聚类问题和关联问题
- 聚类问题:聚类学习问题指的是我们想在数据中发现内在的分组,比如以购买行为对顾客进行分组。
- 关联问题:关联问题学习问题指的是我们想发现数据的各部分之间的联系和规则,例如购买X物品的顾客也喜欢购买Y物品。
一些流形的非监督式学习算法的例子:
- 聚类问题的k-means算法
- 关联规则学习问题中的Apriori算法
半监督式机器学习
当我们拥有大部分的输入数据(X)(X)但是只有少部分的数据拥有标签(Y)(Y),这种情形称为半监督式学习问题
半监督式学习问题介于监督式和非监督式学习之间。这里有一个好例子如:照片分类,但是只有部分照片带有标签(如,狗、猫和人),但是大部分照片都没有标签。
许多现实中的机器学习问题都可以归纳为这一类。因为对数据打标签需要专业领域的知识,这是费时费力的。相反无标签的数据和收集和存储起来都是方便和便宜的。
我们可以使用非监督式学习的技术来发现和学习输入变量的结构。
我们也可以使用监督式学习技术对无标签的数据进行标签的预测,把这些数据传递给监督式学习算法作为训练数据,然后使用这个模型在新的数据上进行预测。
总结
从本文你可以了解到监督式,非监督式和半监督式学习的不同之处。你现在直到如下:
- 监督式学习:所有的数据都有标签并且算法从输入数据学习如何预测输
- 非监督式学习:所有的数据都是无标签的并且算法从输入数据中学习数据固有的结构
- 半监督式学习:部分数据是有标签的,但大部分没有标签,是一种监督式和非监督式学习的手段都可以使用的学习方法。
原文链接:Supervised and Unsupervised Machine Learning Algorithms
以上是关于有监督学习和无监督学习算法怎么理解?的主要内容,如果未能解决你的问题,请参考以下文章