如何通过监督学习将 .txt 文档分类为其他一些 .txt 类别
Posted
技术标签:
【中文标题】如何通过监督学习将 .txt 文档分类为其他一些 .txt 类别【英文标题】:how to classify .txt documents into some other .txt categories by supervised learning 【发布时间】:2017-03-20 15:10:43 【问题描述】:我有大约数千个 txt 文档存储在 8 个不同的文件夹中,这些文件夹标有主题类别(实际上,它们是 1、2、3 类...)。我还有另外 80 个没有类别的 txt 文档。我正在尝试找到对它们进行分类的最佳方法。
我已经完成了文本分割,删除了英文字母(因为它们是中文文本)。接下来该怎么办?
我可以得到具有最高 TF-IDF 值的单词,但不知道下一步该怎么做。似乎我应该将这些文本转换为向量并训练分类器,但我不知道如何。
【问题讨论】:
考虑看看scikit-learn.org/stable/tutorial/text_analytics/… 【参考方案1】:除了实现自己的词袋模型之外,您还可以使用例如doc2vec 来自 gensim。它提供了难以与您自己的实现相匹配的出色性能。您可以在分层 softmax 或负采样之间进行选择。
【讨论】:
以上是关于如何通过监督学习将 .txt 文档分类为其他一些 .txt 类别的主要内容,如果未能解决你的问题,请参考以下文章