使用朴素贝叶斯的文本分类

Posted 2023-03-13

技术标签:

【中文标题】使用朴素贝叶斯的文本分类【英文标题】：Text Classification using Naive bayes 【发布时间】：2014-04-14 14:49:18 【问题描述】：

如果我没有在正确的部分发帖，请指导我。

我的训练数据有一些文本文件，它们在 Word 文档中未格式化。它们都只包含 ASCII 字符。

我想使用数据挖掘方法在文本文件上训练一个模型。

文本文件的每个文件平均有大约 300 个单词。

有没有推荐的软件让我开始使用它？

我最初的想法是使用一个文件中的所有单词作为训练数据，其余的作为测试数据。这是为了执行交叉折叠验证。

但是，我有诸如 weka 之类的工具，但它似乎不能满足我的需求，因为在我的情况下转换为 csv 文件似乎不可行，因为文本文件是分开的

我试图以这样一种方式执行交叉验证，即训练数据中的所有单词都被视为特征。

【问题讨论】：

【参考方案1】：

您需要使用 weka StringToWord 过滤器并将您的文本文件转换为 arff 文件。之后，您可以使用 weka 分类算法。关注video 了解基础知识。

【讨论】：

以上是关于使用朴素贝叶斯的文本分类的主要内容，如果未能解决你的问题，请参考以下文章