如何使用 weka 去除冗余特征

Posted

技术标签:

【中文标题】如何使用 weka 去除冗余特征【英文标题】:How to remove redundant features using weka 【发布时间】:2016-02-28 02:44:10 【问题描述】:

我有大约 300 个特征,我想通过使用 weka 中的特征选择技术找到最好的特征子集。有人可以告诉我使用什么方法来删除 weka 中的冗余功能:)

【问题讨论】:

你在使用 weka GUI 吗? 只是一个随机注释 - 选择特征的唯一原因是为新对象获取此类特征的成本。如果您的问题不是这样,您应该寻找降维,而不是特征选择。 【参考方案1】:

使用 Weka 可以使用的特征选择技术主要有两种:

使用包装方法选择特征:

“包装器方法将一组特征的选择视为一个搜索问题,其中准备、评估不同的组合并与其他组合进行比较。我们用于评估特征组合并根据模型分配分数的预测模型准确性。

搜索过程可能是有条不紊的,例如最佳优先搜索,也可能是随机的,例如随机爬山算法,也可能使用启发式算法,例如向前和向后传递来添加和删除特征。

如果包装方法是递归特征消除算法的示例。" [来自http://machinelearningmastery.com/an-introduction-to-feature-selection/]

使用过滤方法选择特征:

“过滤特征选择方法应用统计度量来为每个特征分配一个评分。这些特征按分数排序,可以选择保留或从数据集中删除。这些方法通常是单变量的,并且独立考虑特征,或关于因变量。

一些过滤方法的例子包括卡方检验、信息增益和相关系数分数。" [来自http://machinelearningmastery.com/an-introduction-to-feature-selection/]

如果您使用的是 Weka GUI,那么您可以看看我的两个视频投射 here 和 here。

【讨论】:

感谢您的回答。根据您的知识,您能否向我推荐适合我的问题的“过滤器”方法和“包装器”方法。 (我有大约 1000 个用户的 300 个功能)请帮助我:)

以上是关于如何使用 weka 去除冗余特征的主要内容,如果未能解决你的问题,请参考以下文章

如何在 weka 中添加恶意特征进行分类作为数据集

如何在 Weka 构建的决策树中找到特征重要性

如何在 Weka 中构建 SVM 分类器以仅考虑数据集中的某些特征?

如何在 Weka 中尝试使用多数投票

如何通过应用 WEKA 计算垃圾短信的“特征向量”?

使用 weka 增加属性的维度?