如何应对频繁上课?

Posted

技术标签:

【中文标题】如何应对频繁上课?【英文标题】:How to deal with frequent classes? 【发布时间】:2013-07-17 07:56:06 【问题描述】:

我正在 Weka 中处理一项分类任务,但遇到的问题是我的类要预测的值非常频繁(大约 85%)。这导致许多学习算法只是为新数据集预测此类的这个频繁值。

我该如何处理这个问题?这是否只是意味着我没有找到能够很好地预测更好的东西的功能?或者我可以做些什么来解决这个问题?

我想这是一个很常见的问题,但我无法在这里找到解决方案。

【问题讨论】:

Tools for multiclass imbalanced classification in statistical packages、How to deal with low frequency examples in classification? 和其他几个问题可能重复。 非常感谢您的快速帮助!这些问题给了我关于如何命名该问题(以及如何解决它)的提示。如果我混淆了条款,对不起。 Weka 使用它们的方式与我第一次学习它们时的方式不同。 是的,Weka 对术语的使用有些奇怪。 (而且更广泛的 ML 社区有时在选择术语时遇到问题......) 【参考方案1】:

您需要“SMOTE”您的数据。首先弄清楚您还需要多少个少数案例。就我而言,我想获得大约 50/50 的比率,所以我需要过度采样 1300%。如果您使用的是 GUI,本教程将有所帮助:http://www.youtube.com/watch?v=w14ha2Fmg6U 如果您使用 Weka 从命令行执行此操作,则以下命令将助您一臂之力:

#Weka 3.7.7
java weka.Run -no-scan weka.filters.supervised.instance.SMOTE \
-c last -K 25 -P 1300.0 -S 1 -i input.arff  -o  output.arff

-K 选项是在 smoting 数据时要考虑的邻居数。默认值为 5,但 25 最适合我的数据集。

【讨论】:

谢谢!作为解决方案的补充:元分类器 FilteredClassifier 有助于这样做(meta/FilteredClassifier)。尤其是在尝试需要多少过采样(必须添加多少人工数据集)时。

以上是关于如何应对频繁上课?的主要内容,如果未能解决你的问题,请参考以下文章

如何应对反爬虫技术?

测试人员遇到不断变化的项目需求该如何应对?

如何应对网站反爬虫策略?如何高效地爬大量数据

亚马逊云科技的AI新引擎,如何助力企业应对“乌卡时代”?

亚马逊云科技的 AI 新引擎,如何助力企业应对“乌卡时代”?

CDH/HDP/CDP等大数据平台中如何快速应对LOG4J的JNDI系列漏洞