我可以使用任何特征选择方法来对 Scikit-learn 中的 KMeans 等任务进行聚类吗?

Posted

技术标签:

【中文标题】我可以使用任何特征选择方法来对 Scikit-learn 中的 KMeans 等任务进行聚类吗?【英文标题】:Can I use any feature selection methods for clustering tasks like KMeans in Scikit-learn? 【发布时间】:2015-11-06 11:35:05 【问题描述】:

我想在未标记的数据上测试一些特征选择方法,但 sklearn.feature_selection 中对象的 fit() 方法具有强制性的 y 参数(目标向量)。是否有任何内置的特征选择方法可用于聚类任务(我不必指定目标向量并且只能使用样本数据)?

【问题讨论】:

或许您可以对数据执行 PCA。 我认为无监督特征选择的方式并不多;虽然跳出来的是VarianceThresholdscikit-learn.org/stable/modules/generated/… 谢谢,VarianceTreshold 工作正常。 @Ryan 在 Pandas 中有没有其他方法可以达到这个目的?比如算法什么的? 【参考方案1】:

您可以在 sklearn 中使用 SequentialFeatureSelector。 https://scikit-learn.org/0.24/modules/generated/sklearn.feature_selection.SequentialFeatureSelector.html

【讨论】:

我认为 OP 期待在无监督设置中的特征选择解决方案,因此不会有目标变量可供输入。

以上是关于我可以使用任何特征选择方法来对 Scikit-learn 中的 KMeans 等任务进行聚类吗?的主要内容,如果未能解决你的问题,请参考以下文章

数据预处理与特征选择

文本分类的特征选择

sklearn 特征选择

任何人都可以在 Spark 中实现 CombineByKey() 而不是 GroupByKey() 来对元素进行分组吗?

特征选择

Sabre BFM (soap) 是不是提供任何方法来对结果进行排序?