如何最好地处理与哪种类型的专家标记在分类点变得不可用的数据相关的特征?
Posted
技术标签:
【中文标题】如何最好地处理与哪种类型的专家标记在分类点变得不可用的数据相关的特征?【英文标题】:How to best deal with a feature relating to what type of expert labelled the data that becomes unavailable at point of classification? 【发布时间】:2014-10-08 05:42:28 【问题描述】:基本上我有一个数据集,它有一个特征向量,以及指示它是垃圾邮件还是非垃圾邮件的标签。
为了获得该数据的标签,使用了 2 种不同类型的专家,每种使用不同的方法来评估项目,然后使用的专家类型也成为向量中的一个特征。
使用随机森林算法对数据的单独部分进行训练和测试已达到高度准确度。
但是,现在很明显,描述制作标签的专家的功能将无法在实时环境中使用。所以我尝试了多种方法来反映这一点:
-
从集合中移除特征并重新训练和测试
根据特征将数据分成 2 个不同的集合,然后训练和测试 2 个单独的分类器
对于测试数据,将有问题的特征全部设置为相同的值
使用所有 3 种方法,分类器已经从高度准确下降到几乎无用。
因此,我正在寻找任何建议或直觉,了解为什么会发生这种情况以及如何解决它以恢复我之前看到的一些准确性?
需要说明的是,我没有机器学习或统计方面的背景,只是使用第三方 c# 代码库作为黑盒来实现这些结果。
【问题讨论】:
也许你会在stats.stackexchange.com 上得到更好的答案。 【参考方案1】:听起来您已经完全适应了“谁标记了什么”功能(以及此功能与其他功能的组合)。您可以通过检查随机森林的feature importances 并检查注释器功能是否排名高来确定。另一种找出方法是让注释者检查彼此的注释并计算一致分数,例如Cohen's kappa。较低的值(例如小于 0.5)表示注释者之间存在分歧,这使得机器学习非常困难。
由于该功能在测试时不可用,因此无法轻松恢复性能。
【讨论】:
以上是关于如何最好地处理与哪种类型的专家标记在分类点变得不可用的数据相关的特征?的主要内容,如果未能解决你的问题,请参考以下文章