机器学习初探——机器学习的基本概念
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习初探——机器学习的基本概念相关的知识,希望对你有一定的参考价值。
机器学习
机器学习研究的主要内容:使计算机从数据中产生“模型”的算法。
机器学习的基本术语
我们认为将一组数据可以抽象画表示为一个向量Xi,D={X1,X2,X3..Xm}表示包含m个示例的数据集,每一个Xi是由一系列属性描述所构成的,Xij则表示第i个示例的第j个特征或属性。
- 所有记录的集合为:数据集(D)
- 每一条记录为:一个实例(instance)或样本(sample),(样本、示例、记录:Xi)。
- 一个样本的特征数为:维数(dimensionality),属性空间的维数,当维数非常大时,也就是现在说的“维数灾难”,(特征、属性j的维数)。
- 属性空间、样本空间、输入空间。这似乎是线性代数的语言,即把属性当作坐标轴,形成一个空间,将Xi在该空间表示为一个点。
- 标记——关于样本结果的信息。
- 样例——带有标记的样本。
- 标记空间、输出空间——所有标记的集合(例如好瓜,坏瓜)。
- 假设——也称假设函数,指计算机通过学习后得到的一个函数(预测模型)。
机器学习的步骤
通过一系列数据集-->找出属性(特征)-->样本和标记空间对应(Xi,y)-->对样例结果进行分类-->分类(离散型)或回归(连续型)-->找到y=f(x)对应关系-->学习到“模型”-->测试。(y为标记空间)
学习模型后,使用模型进行预测的过程称为测试,被测试的样本称之为测试样本。
我们从样本数据中学得模型的过程称之为“学习”或“训练”,学习模型对应了相关数据某种潜在的规律(y=f(x)),学习的过程就是找出或逼近真相。、
对于学习任务可大致划分为2类:
- 训练数据有标记信息的学习任务为:监督学习(supervised learning),分类和回归都是监督学习的范畴。
- 训练数据没有标记信息的学习任务为:无监督学习(unsupervised learning),常见的有聚类和关联规则。
关于假设空间,版本空间,归纳偏好的理解
- 假设空间”里的“假设”指的是假设函数,也就是机器学习的成果。例如我们做分类学习,那么通过数据训练后得到的分类模型就是我们得到的假设。假设空间是指所有可能假设组成的空间。也可以说是所有在表达形式上符合任务要求的假设函数的集合。
- 版本空间:有很多策略来对假设空间的假设进行筛选,利用样本把假设空间里的假设一一排除,可能有多个假设与训练集一致,即存在着一致性的“假设集合”为版本空间。
- 归纳偏好:在学习过程中对某类假设的偏好,即在众多的假设与观察一致的模型,采取哪一个模型更好?
小结:机器学习的基本术语,从实验数据到学习到模型的整个流程的疏通,以及个别概念的理解。
以上是关于机器学习初探——机器学习的基本概念的主要内容,如果未能解决你的问题,请参考以下文章