聚类 VS 监督分类，在非常小的数据库的情况下

Posted 2023-03-12

技术标签:

【中文标题】聚类 VS 监督分类，在非常小的数据库的情况下【英文标题】：clustering VS supervised classification, in the case of very small database 【发布时间】：2019-01-27 13:38:31 【问题描述】：

我正在尝试根据两个类别中的 4 个特征对主题进行分类/聚类：健康和生病。

要知道两件事：我知道每个主题的标签/类别 + 我只有 40 个主题（总共：训练 + 测试集！）

在这种情况下我应该选择什么，聚类还是分类？

【问题讨论】：

如果有分类变量，最好选择分类好吧，但为什么“更好”？ 【参考方案1】：

聚类与分类不是方法的选择，而是问题的选择。手头有什么问题？您已标记数据并希望获得一个可以标记更多数据的模型 - 这就是定义分类。至于使用什么具体的分类方法，这是一个全新的、研究驱动的问题，而不是一个简单的编程问题。特别是许多分类器会尝试将某种生成模型拟合到数据中（因此即使没有标签也能了解结构），但最终 - 标签就在那里，应该被使用。*

【讨论】：

所以我的科目很少这一事实不算数？这并不影响它是一个分类问题，应该这样对待。解决方案到底是什么，在单独的问题中实际需要多少有关标签的信息。特别是像 kNN 或朴素贝叶斯这样的分类方法即使在低数据状态下也可以做得相对较好

以上是关于聚类 VS 监督分类，在非常小的数据库的情况下的主要内容，如果未能解决你的问题，请参考以下文章

分类与监督学习，朴素贝叶斯分类算法

11.分类与监督学习，朴素贝叶斯分类算法

数据挖掘系列篇：聚类算法概述

机器学习11- 分类与监督学习，朴素贝叶斯分类算法