详解五大分类方法及其优缺点,数据挖掘师必会!

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了详解五大分类方法及其优缺点,数据挖掘师必会!相关的知识,希望对你有一定的参考价值。

分类算法是一种在专家指导下的,有监督的数据挖掘方法,其种类很多,包括:

传统方法:线性判别法、距离判别法、贝叶斯分类器;

现代方法:决策树、神经网络ANN、支持向量机SVM;


1、决策树

决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中,推理出以决策树表示的分类规则。

技术分享图片


2、贝叶斯

贝叶斯(Bayes)分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive Bayes)算法


这些算法主要利用Bayes定理,来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。


由于贝叶斯定理的成立,本身需要一个很强的条件独立性假设前提,而此假设在实际情况中,经常是不成立的,因而其分类准确性就会下降。


为此就出现了许多降低独立性假设的贝叶斯分类算法,如TAN(Tree Augmented Naive Bayes)算法,它是在贝叶斯网络结构的基础上,增加属性对之间的关联来实现的。


3、人工神经网络ANN

人工神经网络,是一种应用类似于大脑神经突触联接的结构,进行信息处理的数学模型。


在这种模型中,大量的节点(或称”神经元”,或”单元”)之间相互联接构成网络,即”神经网络”,以达到处理信息的目的。

技术分享图片

神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。

训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。

神经网络已有上百种不同的模型,常见的有BP网络、径向基RBF网络、Hopfield网络、随机神经网络(Boltzmann机)、竞争神经网络(Hamming网络,自组织映射网络)等。


4、kNN(k-近邻)


k-近邻(kNN,k-Nearest Neighbors)算法是一种基于实例的分类方法。


该方法就是找出与未知样本x,距离最近的k个训练样本,看这k个样本中多数属于哪一类,就把x归为哪一类。

技术分享图片

k-近邻方法是一种懒惰学习方法,它存放样本,直到需要分类时才进行分类,如果样本集比较复杂,可能会导致很大的计算开销,因此无法应用到实时性很强的场合。


5、支持向量机SVM


支持向量机(SVM,Support Vector Machine)是Vapnik根据统计学习理论,提出的一种新的学习方法。

技术分享图片

支持向量机(SVM,Support Vector Machine)的最大特点是:

根据结构风险最小化准则,以最大化分类间隔,构造最优分类超平面,来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。

对于分类问题,支持向量机算法根据区域中的样本,计算该区域的决策曲面,由此确定该区域中未知样本的类别。


在没有更多背景信息给出时,如果追求预测的准确程度,一般用支持向量机(SVM),如果要求模型可以解释,一般用决策树。

技术分享图片


本文出自 “中科院计算所培训” 博客,谢绝转载!

以上是关于详解五大分类方法及其优缺点,数据挖掘师必会!的主要内容,如果未能解决你的问题,请参考以下文章

Java注解和注解解析器深耕,架构师必会

Java注解和注解解析器深耕,架构师必会

李新海:培训师必会的成年人学习的九大心理

29个阿里架构师必会的核心实战知识点整理清单

29个阿里架构师必会的核心实战知识点整理清单

9大架构设计场景,架构师必知必会