使用朴素贝叶斯的文本分类
Posted
技术标签:
【中文标题】使用朴素贝叶斯的文本分类【英文标题】:Text Classification using Naive bayes 【发布时间】:2014-04-14 14:49:18 【问题描述】:如果我没有在正确的部分发帖,请指导我。
我的训练数据有一些文本文件,它们在 Word 文档中未格式化。它们都只包含 ASCII 字符。
我想使用数据挖掘方法在文本文件上训练一个模型。
文本文件的每个文件平均有大约 300 个单词。
有没有推荐的软件让我开始使用它?
我最初的想法是使用一个文件中的所有单词作为训练数据,其余的作为测试数据。这是为了执行交叉折叠验证。
但是,我有诸如 weka 之类的工具,但它似乎不能满足我的需求,因为在我的情况下转换为 csv 文件似乎不可行,因为文本文件是分开的
我试图以这样一种方式执行交叉验证,即训练数据中的所有单词都被视为特征。
【问题讨论】:
【参考方案1】:您需要使用 weka StringToWord 过滤器并将您的文本文件转换为 arff 文件。之后,您可以使用 weka 分类算法。关注video 了解基础知识。
【讨论】:
以上是关于使用朴素贝叶斯的文本分类的主要内容,如果未能解决你的问题,请参考以下文章