2类分类的建议无监督特征选择/提取方法?
Posted
技术标签:
【中文标题】2类分类的建议无监督特征选择/提取方法?【英文标题】:Suggested unsupervised feature selection / extraction method for 2 class classification? 【发布时间】:2016-04-30 11:00:34 【问题描述】:我有一组 F 功能,例如实验室色彩空间,熵。通过将所有特征连接在一起,我得到了一个维度为 d 的特征向量(介于 12 到 50 之间,具体取决于选择的特征。
我通常会得到 1000 到 5000 个新样本,用 x 表示。然后用向量训练高斯混合模型,但我不知道这些特征来自哪个类。我所知道的是,只有 2 个类。根据 GMM 预测,我得到该特征向量属于第 1 类或第 2 类的概率。
我现在的问题是:如何获得最好的特征子集,例如只有熵和归一化的 rgb,这会给我最好的分类精度?我想这是可以实现的,如果由于特征子集的选择增加了类的可分离性。
也许我可以利用 Fisher 的线性判别分析?因为我已经有了从 GMM 获得的均值和协方差矩阵。但是我不是必须计算每个特征组合的分数吗?
如果这是一种没有回报的方法并且我走错了路和/或有任何其他建议,我会很高兴获得一些帮助?
【问题讨论】:
【参考方案1】:寻找“信息丰富”特征的一种方法是使用能够最大化对数似然度的特征。您可以通过交叉验证来做到这一点。
https://www.cs.cmu.edu/~kdeng/thesis/feature.pdf
另一个想法可能是使用另一种自动选择特征的无监督算法,例如聚类森林
http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf
在这种情况下,聚类算法会根据信息增益自动拆分数据。
Fisher LDA 不会选择要素,而是将您的原始数据投影到较低维度的子空间中。如果您正在研究子空间方法 另一种有趣的方法可能是谱聚类,这也会发生 在子空间或无监督神经网络(如自动编码器)中。
希望有帮助
【讨论】:
以上是关于2类分类的建议无监督特征选择/提取方法?的主要内容,如果未能解决你的问题,请参考以下文章