最近邻、朴素贝叶斯和决策树分类器解决给定分类问题的效果如何?
Posted
技术标签:
【中文标题】最近邻、朴素贝叶斯和决策树分类器解决给定分类问题的效果如何?【英文标题】:How good can Nearest Neighbor, Naive Bayes and a Decision Tree classifier solve the given classification problem? 【发布时间】:2013-02-10 17:36:17 【问题描述】:三个图表 (i)、(ii)、(iii) 显示了具有 2 个数值属性(x 和 y 轴)和具有两个类别(圆形和方形)的目标属性的训练集。
我现在想知道数据挖掘算法(最近邻、朴素贝叶斯和决策树)解决每个分类问题的效果如何。
我认为 朴素贝叶斯(假设属性不相关)比 (i) 和 (iii) 更好地解决了第二个问题,因为这里的数值属性往往更加独立彼此之间。
【问题讨论】:
【参考方案1】:如果你想在这样的场景中使用每个给定的方法:
第一个最好用决策树方法解决,因为类可以按轴分开。我的意思是在 x 轴上画一条垂直线,将值分为左侧和右侧,并在 y 轴上画另一条垂直线,这样你会看到类被很好地分开。
第二个可以被视为您提到的朴素贝叶斯问题。
第三个可以用k最近邻域方法解决。方形类在坐标系上的位置较近,圆形类也可以分类有一些错误。
【讨论】:
我认为 SVM-radial 也应该完美地处理这些数据 我认为上面的案例 2 不适合 NB,因为每个轴上的类分布高度依赖于另一个轴。正如预期的那样,在类似的数据集上运行 WEKA 会产生大约 50% 的分类率。事实上,我想我会将此纳入另一个答案:) 感谢 cmets。我认为决策树在 (i) 和 (iii) 中表现最好,因为在 (ii) 中,需要一个对角线边界来分隔类,这将导致该分离对角线上的每个点都具有单一条件。因为 DT 中的条件会导致水平或垂直边界线。 我认为 k-nn 对于第三分类问题不是一个好主意,因为数据集类似于同心圆。我认为需要对这个数据集进行特征工程,然后应用模型。因为使用 k-nn 可能会遇到拟合不足的问题。以上是关于最近邻、朴素贝叶斯和决策树分类器解决给定分类问题的效果如何?的主要内容,如果未能解决你的问题,请参考以下文章
mooc机器学习第六天-K近邻,决策树,朴素贝叶斯分类器简单尝试