如何通过监督学习将 .txt 文档分类为其他一些 .txt 类别

Posted

技术标签:

【中文标题】如何通过监督学习将 .txt 文档分类为其他一些 .txt 类别【英文标题】:how to classify .txt documents into some other .txt categories by supervised learning 【发布时间】:2017-03-20 15:10:43 【问题描述】:

我有大约数千个 txt 文档存储在 8 个不同的文件夹中,这些文件夹标有主题类别(实际上,它们是 1、2、3 类...)。我还有另外 80 个没有类别的 txt 文档。我正在尝试找到对它们进行分类的最佳方法。

我已经完成了文本分割,删除了英文字母(因为它们是中文文本)。接下来该怎么办?

我可以得到具有最高 TF-IDF 值的单词,但不知道下一步该怎么做。似乎我应该将这些文本转换为向量并训练分类器,但我不知道如何。

【问题讨论】:

考虑看看scikit-learn.org/stable/tutorial/text_analytics/… 【参考方案1】:

除了实现自己的词袋模型之外,您还可以使用例如doc2vec 来自 gensim。它提供了难以与您自己的实现相匹配的出色性能。您可以在分层 softmax 或负采样之间进行选择。

【讨论】:

以上是关于如何通过监督学习将 .txt 文档分类为其他一些 .txt 类别的主要内容,如果未能解决你的问题,请参考以下文章

无监督学习

监督学习

机器学习如何分类?

机器学习的监督学习和无监督学习的区别?

机器学习10 11.分类与监督学习,朴素贝叶斯分类算法

机器学习10 11.分类与监督学习,朴素贝叶斯分类算法