如何对多类数据集进行二分类?

Posted

技术标签:

【中文标题】如何对多类数据集进行二分类?【英文标题】:How to do binary classification on multiclass dataset? 【发布时间】:2021-06-02 04:34:20 【问题描述】:

我想对多类数据集(由来自多个科学文章文件的标记句子组成)进行两种类型的分类。我想做的类似于这个 https://www.cl.cam.ac.uk/~sht25/papers/aaai98.pdf 。所以第一个是二进制分类,以从名为“其他”的标签中删除句子。剩下的将用于第二个分类,即多类分类。

目前我被困在“如何对多类数据集进行二进制分类?”。我想过做一个 vs 休息(ovr)分类,但从我看到的例子来看,内置的 ovr 将为所有类创建模型并从那里进行 ovr。同时,我只想为一个标签做 ovr,即“其他”与所有其他标签。请帮忙。

【问题讨论】:

【参考方案1】:

只需创建一个新的标签列,如果标签为“其他”,则(对于每一行)分配 1,否则分配 0。然后使用新创建的标签列进行二进制分类。希望我正确理解了您的问题?...

【讨论】:

以上是关于如何对多类数据集进行二分类?的主要内容,如果未能解决你的问题,请参考以下文章

如何对多类数据进行交叉验证?

如何定义多类文本数据集(fastai)的日志计数比?

鸢尾花数据集的多类分类

用于提供多类图像数据集的方法,其中文件夹名称可以用作Pytorch中的标签?

如何使用 Python 对图像数据集进行过采样?

Vowpal Wabbit 模型在使用像素 RGB 值对图像进行多类分类时效果不佳