2类分类的建议无监督特征选择/提取方法？

Posted 2023-03-12

技术标签:

【中文标题】2类分类的建议无监督特征选择/提取方法？【英文标题】：Suggested unsupervised feature selection / extraction method for 2 class classification? 【发布时间】：2016-04-30 11:00:34 【问题描述】：

我有一组 F 功能，例如实验室色彩空间，熵。通过将所有特征连接在一起，我得到了一个维度为 d 的特征向量（介于 12 到 50 之间，具体取决于选择的特征。

我通常会得到 1000 到 5000 个新样本，用 x 表示。然后用向量训练高斯混合模型，但我不知道这些特征来自哪个类。我所知道的是，只有 2 个类。根据 GMM 预测，我得到该特征向量属于第 1 类或第 2 类的概率。

我现在的问题是：如何获得最好的特征子集，例如只有熵和归一化的 rgb，这会给我最好的分类精度？我想这是可以实现的，如果由于特征子集的选择增加了类的可分离性。

也许我可以利用 Fisher 的线性判别分析？因为我已经有了从 GMM 获得的均值和协方差矩阵。但是我不是必须计算每个特征组合的分数吗？

如果这是一种没有回报的方法并且我走错了路和/或有任何其他建议，我会很高兴获得一些帮助？

【问题讨论】：

【参考方案1】：

寻找“信息丰富”特征的一种方法是使用能够最大化对数似然度的特征。您可以通过交叉验证来做到这一点。

https://www.cs.cmu.edu/~kdeng/thesis/feature.pdf

另一个想法可能是使用另一种自动选择特征的无监督算法，例如聚类森林

http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf

在这种情况下，聚类算法会根据信息增益自动拆分数据。