如何使用 weka 去除冗余特征
Posted
技术标签:
【中文标题】如何使用 weka 去除冗余特征【英文标题】:How to remove redundant features using weka 【发布时间】:2016-02-28 02:44:10 【问题描述】:我有大约 300 个特征,我想通过使用 weka 中的特征选择技术找到最好的特征子集。有人可以告诉我使用什么方法来删除 weka 中的冗余功能:)
【问题讨论】:
你在使用 weka GUI 吗? 只是一个随机注释 - 选择特征的唯一原因是为新对象获取此类特征的成本。如果您的问题不是这样,您应该寻找降维,而不是特征选择。 【参考方案1】:使用 Weka 可以使用的特征选择技术主要有两种:
使用包装方法选择特征:“包装器方法将一组特征的选择视为一个搜索问题,其中准备、评估不同的组合并与其他组合进行比较。我们用于评估特征组合并根据模型分配分数的预测模型准确性。
搜索过程可能是有条不紊的,例如最佳优先搜索,也可能是随机的,例如随机爬山算法,也可能使用启发式算法,例如向前和向后传递来添加和删除特征。
如果包装方法是递归特征消除算法的示例。" [来自http://machinelearningmastery.com/an-introduction-to-feature-selection/]
使用过滤方法选择特征:“过滤特征选择方法应用统计度量来为每个特征分配一个评分。这些特征按分数排序,可以选择保留或从数据集中删除。这些方法通常是单变量的,并且独立考虑特征,或关于因变量。
一些过滤方法的例子包括卡方检验、信息增益和相关系数分数。" [来自http://machinelearningmastery.com/an-introduction-to-feature-selection/]
如果您使用的是 Weka GUI,那么您可以看看我的两个视频投射 here 和 here。
【讨论】:
感谢您的回答。根据您的知识,您能否向我推荐适合我的问题的“过滤器”方法和“包装器”方法。 (我有大约 1000 个用户的 300 个功能)请帮助我:)以上是关于如何使用 weka 去除冗余特征的主要内容,如果未能解决你的问题,请参考以下文章