使用朴素贝叶斯的文本分类

Posted

技术标签:

【中文标题】使用朴素贝叶斯的文本分类【英文标题】:Text Classification using Naive bayes 【发布时间】:2014-04-14 14:49:18 【问题描述】:

如果我没有在正确的部分发帖,请指导我。

我的训练数据有一些文本文件,它们在 Word 文档中未格式化。它们都只包含 ASCII 字符。

我想使用数据挖掘方法在文本文件上训练一个模型。

文本文件的每个文件平均有大约 300 个单词。

有没有推荐的软件让我开始使用它?

我最初的想法是使用一个文件中的所有单词作为训练数据,其余的作为测试数据。这是为了执行交叉折叠验证。

但是,我有诸如 weka 之类的工具,但它似乎不能满足我的需求,因为在我的情况下转换为 csv 文件似乎不可行,因为文本文件是分开的

我试图以这样一种方式执行交叉验证,即训练数据中的所有单词都被视为特征。

【问题讨论】:

【参考方案1】:

您需要使用 weka StringToWord 过滤器并将您的文本文件转换为 arff 文件。之后,您可以使用 weka 分类算法。关注video 了解基础知识。

【讨论】:

以上是关于使用朴素贝叶斯的文本分类的主要内容,如果未能解决你的问题,请参考以下文章

实现用于文本分类的朴素贝叶斯的对数可能性

朴素贝叶斯的优缺点

python实现随机森林逻辑回归和朴素贝叶斯的新闻文本分类

基于朴素贝叶斯的wine数据集分类预测-机器学习实验-朴素贝叶斯

机器学习:朴素贝叶斯的python实现

基于朴素贝叶斯的文本分类