机器学习01

Posted 2021-01-16 wzc440302

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习01相关的知识，希望对你有一定的参考价值。

对于一组对象的数据，将其的集合按照不同“属性”，而其对应的值为“属性值”，由“属性”所张成的空间称为“属性空间”。而一个对象的各个数据在”属性空间“中为不同坐标轴上的对应”属性值“，而在”属性空间“中的对应点所对应的向量就是该对象的”特征向量“。

由在这个”属性空间“中各个”特征向量“所建立的模型，可以预测后续对象的相应值。

若想要预测离散值，则被称为”分类“；若想要预测连续值，则被称为”回归“。对于只涉及两个类别的”二分类“，通常称其中一个为”正类“，另一个为”反类“；对于涉及多个类别的，称为”多分类“。

学习模型后，试用其进行预测的过程被称为”测试“，被预测的样本被称为”测试样本"。

对于“聚类”，是指对一组对象进行分组，每组称为一个“簇”，这些自动形成的簇可能对应一些潜在的概念划分，有助于了解数据内在规律，更深入地分析数据建立基础。但是，在“聚类”学习中，实际上的“概念”是事先未知的，且在学习过程中所使用的训练样本通常不具备标记信息。

根据训练数据是否拥有标记信息，可以将学习任务大致划分为两大类：“监督学习”和“无监督学习”。分类和回归是前者的代表，聚类是后者的代表。

机器学习的目标是使学得的模型能较好地适用于“新样本”，而不仅仅是在训练样本上做的好；即使是对于聚类这种无监督学习任务，我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力被称为“泛化”。具有强泛化能力的模型能更好地适用于整个样本空间。所以，为了使我们的模型能具有强泛化能力，我们期望我们的训练样本能较好地反映整个样本空间的特征。如：假设样本空间中全体样本服从一个未知的“分布”D，我们获得的每个样本都是独立地从这个分布上采样获得的，即“独立同分布”。一般而言，训练样本越多，我们得到的关于D的信息越多，就越可能通过学习获得具有强泛化能力的模型。

以上是关于机器学习01的主要内容，如果未能解决你的问题，请参考以下文章