什么是监督学习非监督学习，强化学习

Posted 2021-01-28 leo1014

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了什么是监督学习非监督学习，强化学习相关的知识，希望对你有一定的参考价值。

机器学习按照学习方式的不同，分为很多的类型，主要的类型分为

什么是监督学习？

利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练。

正如下图中给出了好多鸭子的特征那样，指示出那些是鸭子哪些不是鸭子，然后让计算机进行学习，计算机要通过学习才能具有识别各种事物和现象的能力。

用来进行学习的材料就是与被识别对象属于同类的有限数量样本，在本例子中指的是哪些选择的鸭子。

除此之外，监督学习中在给予计算机学习样本的同时，还告诉计算各个样本所属的类别。

技术分享图片

当再次给出一个特征图片的时候，就可以通过预测模型进行判断。

技术分享图片

监督学习就是标明一些数据是对的，另一些数据是错的，然后让程序预测，新的数据是对的还是错的。所以说，有监督学习，必须是有标签的。

什么是无监督学习？

无监督学习，顾名思义，就是不对数据进行标明，让机器自动去判断，哪些数据比较像，归到一类等等

技术分享图片

无监督学习注重的是把特征对象归为类

什么是半监督学习？

半监督学习是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据，以及同时使用标记数据，来进行模式识别工作。

所给的数据有的是有标签的，而有的是没有标签的。

通过下图来进行举例，如果比做人的话，半监督学习就类似于人的生活，一些人是有标签的，比如商界的精英，总裁，一些人是无标签的，在社会中无标签的人占

大多数，有标签的精英占少部分。

当一个人进来的时候，就会对他的特征进行判断，也就是是否是精英进行判断，是否需要归为相同的类。

技术分享图片

什么是强化学习？

强化学习的核心是一个概念，即最佳的行为或行动是由积极的回报来强化的。机器和软件代理使用强化学习算法，通过以环境的反馈为基础来确定理想行为。

强化学习算法可以在必要时随时间保持适应环境，以便长期获得最大的回报。比如一个通过强化学习来学习行走的机器人将通过尝试不同的方法获得有关这些方式成功的反馈，然后进行自我的调整直到达到行走的目标。大步伐会让机器人摔倒，通过调整步距来判断这是否是保持直立的原因，通过不同的变化持续学习，最终能够行走。

以上说明，奖励是保持直立，惩罚就是摔倒，机器人基于对其动作的反馈信息进而优化并强化。

强化学习需要大量的数据。

比如在超级玛丽这一款游戏中，水道工通过环境的不断地变化，通过吃蘑菇进行不断地强化自己完善自己，这个过程就可以类比如强化学习

技术分享图片

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

以上是关于什么是监督学习非监督学习，强化学习的主要内容，如果未能解决你的问题，请参考以下文章