weka 3.7 explorer 无法对文本进行分类

Posted 2023-03-13

技术标签:

【中文标题】weka 3.7 explorer 无法对文本进行分类【英文标题】：weka 3.7 explorer cannot classify text 【发布时间】：2014-11-08 10:02:27 【问题描述】：

我正在尝试使用 weka 3.7 explorer 进行文本分类。我使用文本加载器将 2 个文本文件（分为两个目录 class1 和 class2）转换为 arff。在此之前，我将案例标准化以降低。现在，当我将文件加载到 weka 并应用过滤器 stringtowordvector（例如 stopwords、usewordcount、usestoplist、stemmer - snowballstemmer）时，我的变量列表没有任何变化。对于每个类，所有变量（单词）都以 1 或 0 的形式给出。

请帮帮我。

这是我的过滤命令

weka.filters.unsupervised.attribute.StringToWordVector -R first-last -W 1000 -prune-rate -1.0 -C -N 0 -S -stemmer weka.core.stemmers.SnowballStemmer -M 1 -tokenizer "weka. core.tokenizers.WordTokenizer -delimiters \" \r\n\t.,;:\\'\\"()?!\""

【问题讨论】：

【参考方案1】：

当我想从 .csv 读取数据并使用 StringToWord 向量时，我遇到了这种情况。

我的问题是，文本属性是标称类型而不是字符串。我使用了“NominalToString”类，用它来将值更改为字符串，然后它就起作用了。

【讨论】：

以上是关于weka 3.7 explorer 无法对文本进行分类的主要内容，如果未能解决你的问题，请参考以下文章

Weka入门——数据文件

Weka 3.7 中 RandomForest 的精确实现

weka的explorer运行j48算法后，输出如下类容，各是啥含义？

Weka 中带有测试数据的空混淆矩阵

如何使用 weka 实现决策树？

关于使用独立数据集通过 weka 验证文本分类的问题