机器学习简介
Posted 蜗牛K
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习简介相关的知识,希望对你有一定的参考价值。
简单介绍一下机器学习:
简单理解一下“机器学习”:从字面上,可以想到,让机器去学习,学习什么呢?简单来说其实就是从数据中学习得到一些信息。机器学习能让我们从数据集中受到启发,意思就是,利用计算机来彰显数据背后的真实含义,这就是机器学习的真实含义。机器学习对于任何需要解释并操作数据的领域都
是很有用的。
机器学习主要分为两类:监督学习和非监督学习。顾名思义,由名称可以简单理解,监督学习也就是有相应已知数据支持情况下的机器学习,而非监督学习是没有任何知识所支持的机器学习。这样说可能不是那么明白,接着往下理解。
监督学习又分为两个问题,一个问题是分类,另一个是回归。分类就是利用已知类别的数据来学习一个分类标准,然后利用该分类标准去分类那些未被标识类别的数据;回归主要指的是预测数值型数据,大多数人可能都见过回归的例子——数据拟合曲线:通过给定数据点的最优拟合曲线。由此可以看出,分类和回归都需要有已知数据的支持的,分类算法都要求输入大量已被标识好类别的数据作为算法的训练集,对于机器学习算法都有一个目标变量,分类算法中的目标变量就是类别的集合,通常是标称型的数据。而回归算法通常是连续型的。
与监督学习相对应的无监督学习,此时数据没有类别信息,也不会给定目标值。无监督学习也主要包含两类,其一:将数据集合划分成几个由相似对象组成的群组(或类别),这个过程称为聚类;其二是:将寻找描述数据统计值的过程称之为密度估计。此外,无监督学习还可以减少数据特征的位度,以便我们可以使用二维图或三维图更加直地展示数据信息。
下面贴出一张表格来显示处理这四个问题的机器学习算法:
其中解决某个问题的算法都有好几种,那么就引出了一个问题,该选择何种算法来解决问题呢?
在选择实际可用的算法时,要考虑两个方面:
• 目的是什么?也就是说要解决什么问题,解决什么问题就找到相对应的方法。
• 要分析或收集的数据是什么(数值型或标称型等等)。
在考虑这两个问题的时候,就可以初步确定要用的算法了。
首先考虑目的,如果要预测目标变量的值,就选择监督学习,否则则选择非监督学习。选择了监督学习之后,思考要分析的数据类型是什么类型的数据,如果目标变量是离散型数据,则选择分类算法,如果目标变量是连续型数据,则选择回归算法。如果不预测目标变量的值,则选择非监督学习,然后进一步分析是否需要将数据划分为离散的组。如果这是唯一的要求,则选择聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。不过这不是一成不变的,比如有时也会使用分类算法来处理回归问题。
考虑完目的,其次就要考虑数据的问题,要充分了解数据,对实际数据越了解,越容易找到符合实际需求的应用程序。主要该了解数据的特性如下:特征值是离散型变量还是连续型变量;特征值是否存在缺失的值,什么原因造成了数据的缺失;数据中是否包含异常的值,某个特征发生的频率是怎样的(是否很罕见如大海捞针一样)。了解了这些就可以很好的缩短选择算法的时间。
通过以上方法只是能最大程度的缩小选择算法的范围,但一般并不存在最好的算法或者可以给出最好结果的算法,同时还要尝试其他的算法去查看效果的好坏。一般来说发现最好算法的关键环节就是反复试错的迭代过程。
接下来说一下开发机器学习应用程序的基本步骤:
- 收集数据。机器学习算法都离不开数据,只有有了数据才可以做分类,回归,聚类以及密度估计。
- 准备输入数据。再有了数据之后,还要让数据符合机器学习算法的格式要求,根据格式的要求对数据进行处理。
- 分析输入数据。这个步骤主要是人工分析得到的数据。主要分析数据是否有空值;数据是否分析出相应的模式或知识;数据中是否存在异常值。这里可以通过一维、二维或三维图形展示来查看数据的差异等。这一步主要作用是确保数据中没有垃圾数据,以便后续步骤更好的进行。
- 训练算法。将前面得到的数据输入到机器学习的算法, 从数据中得到相应的信息或知识模式。这里需要将得到的知识存储为计算机可以处理的格式,方便后续步骤使用。如果使用无监督学习,由于不存在目标变量值,因此这一步可以省掉。
- 预测算法。这一步是使用步骤4中得到知识模式,来检验算法的性能,评估算法。如果不满意算法的输出结果,可以回到步骤4继续调试来获取好的结果。
- 使用算法。将机器学习算法转换为应用程序,去解决实际的问题。这里也要不断地从实际情况中去检验算法的好坏,碰到新的问题,同样需要重复以上步骤进行改进。
机器学习,主要为了理解数据背后的含义。学习数据中所隐藏着的知识模式,用得到的知识模式反馈到现实的问题中。
以上是关于机器学习简介的主要内容,如果未能解决你的问题,请参考以下文章