二进制输出的文本分类

Posted

技术标签:

【中文标题】二进制输出的文本分类【英文标题】:Text classification for binary output 【发布时间】:2018-05-30 03:52:20 【问题描述】:

我不是数据科学家,对数据科学/机器学习非常陌生。 我的目标是预测某些文本是否属于特定类别。 我已经看过天真的海湾来将文本分类为不同的类,但在这里我只有一个类。最后,我想预测文本是否属于某个类别(例如,文本是否属于technical 类型,而不是technicalpolitical)。我只有正数据集(technical 类型的所有文本)用于训练。

据我所知,Naive bays 需要正数据集和负数据集进行训练。不确定这是否是解决问题的最佳算法。如果有的话,想学习更好的方法。谢谢。

【问题讨论】:

您在特定领域工作吗? 好吧,只是为了更清楚。我想预测一条推文属于某个类别。与域本身无关。 【参考方案1】:

你有两个选择:

    您可以使用如下的自动编码器:

    第 1 步:使用您拥有的正面数据对其进行训练 Step2:使用错误计算作为分类器:将新数据提供给您在第一步中已经训练过的自动编码器,并将具有高错误的数据单元作为“异常”(在您的情况下不属于想要的文本类.)

    您还可以使用 k-means 之类的聚类技术,在这种情况下,您需要花更多时间进行特征工程(选择与文本最相关的特征)。

【讨论】:

以上是关于二进制输出的文本分类的主要内容,如果未能解决你的问题,请参考以下文章

文本分类:多标签文本分类与多类文本分类

文本二进制分类训练期间的波动损失

简单的二进制文本分类

文本分类,rnn包R

如何评估我自己的文本分类器

为啥 Mallet 文本分类为所有测试文件输出相同的值 1.0?