2类分类的建议无监督特征选择/提取方法?

Posted

技术标签:

【中文标题】2类分类的建议无监督特征选择/提取方法?【英文标题】:Suggested unsupervised feature selection / extraction method for 2 class classification? 【发布时间】:2016-04-30 11:00:34 【问题描述】:

我有一组 F 功能,例如实验室色彩空间,熵。通过将所有特征连接在一起,我得到了一个维度为 d 的特征向量(介于 12 到 50 之间,具体取决于选择的特征。

我通常会得到 1000 到 5000 个新样本,用 x 表示。然后用向量训练高斯混合模型,但我不知道这些特征来自哪个类。我所知道的是,只有 2 个类。根据 GMM 预测,我得到该特征向量属于第 1 类或第 2 类的概率。

我现在的问题是:如何获得最好的特征子集,例如只有熵和归一化的 rgb,这会给我最好的分类精度?我想这是可以实现的,如果由于特征子集的选择增加了类的可分离性。

也许我可以利用 Fisher 的线性判别分析?因为我已经有了从 GMM 获得的均值和协方差矩阵。但是我不是必须计算每个特征组合的分数吗?

如果这是一种没有回报的方法并且我走错了路和/或有任何其他建议,我会很高兴获得一些帮助?

【问题讨论】:

【参考方案1】:

寻找“信息丰富”特征的一种方法是使用能够最大化对数似然度的特征。您可以通过交叉验证来做到这一点。

https://www.cs.cmu.edu/~kdeng/thesis/feature.pdf

另一个想法可能是使用另一种自动选择特征的无监督算法,例如聚类森林

http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf

在这种情况下,聚类算法会根据信息增益自动拆分数据。

Fisher LDA 不会选择要素,而是将您的原始数据投影到较低维度的子空间中。如果您正在研究子空间方法 另一种有趣的方法可能是谱聚类,这也会发生 在子空间或无监督神经网络(如自动编码器)中。

希望有帮助

【讨论】:

以上是关于2类分类的建议无监督特征选择/提取方法?的主要内容,如果未能解决你的问题,请参考以下文章

维度规约(特征的提取和组合)

多语言数据的特征选择和无监督学习+机器学习算法选择

有监督和无监督的特征选择方法

特征选取--卡方选择器

PIE-Basic 非监督分类

机器学习应用——无监督学习(实例:31省市居民家庭消费调查&学生上网时间分布聚类&鸢尾花数据&人脸数据特征提取)