ML概念
Posted vichin
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了ML概念相关的知识,希望对你有一定的参考价值。
训练集(traning set/data):用来训练,产生模型的算法的数据集
测试集(testing set/data):用来训练,产生模型的算法的数据集):用来专门进行测试已经学习好的模型或者算法的数据集。
特征向量(feature/feature vector):属性集合,通常用一个向量来表示,附属于一个实例。
标记(label):实例类别的标记(用模型测试完数据后得到的结果)。
正例(position example)
反例(negative example)
分类(classification):目标标记为类别型数据(category)。
回归(regression):目标标记为连续性数值(continuous numeric value)。
有监督学习(supervised learning):训练集有类别标记(class label)。
无监督学习(unsupervised learning):无类别标记(class label)。
半监督学习(semi-supervised learning):有类别标记的训练集+无标记的训练集
机器学习步骤框架
把数据拆分为训练集和测试集
用训练集和测试集的特征向量来训练算法
用学习来的算法运用在测试集上来评估算法(可能要设计到调整参数(parameter tuning),用验证集(validation set))
以上是关于ML概念的主要内容,如果未能解决你的问题,请参考以下文章
4.Spark ML学习笔记—Spark ML决策树 (应用案例)随机森林GBDT算法ML 树模型参数详解 (本篇概念多)