Weka POS 标记 + 标记化

Posted 2023-03-13

技术标签:

【中文标题】Weka POS 标记 + 标记化【英文标题】：Weka POS tagging + tokenization 【发布时间】：2016-10-30 07:59:20 【问题描述】：

我是 Weka 的新手。我正在尝试对电影评论进行情感分类。问题是，我可以理解对单词的出现进行标记和属性化的 StringToWord 向量。我也想将词性标签添加到属性词汇表中，但我不知道怎么做？

以前有人试过吗？

拜托，你能指导我吗？

附言。我正在使用 OpenNLP 进行 POS 标记和 Weka J48 分类器 ！

【问题讨论】：

您是否上传了一个文本文件，然后在 Weka 中对其进行标记？是的，我做到了。我使用 TextDirectoryLoader 类以实例格式和 StringToWordVector 或 tokenization 访问我的数据。现在，我无法理解如何为每个标记化属性添加 POS 标签？我还尝试自己计算单词出现次数并自己创建了一个 ARFF 文件，但它给了我错误 IOException 过早结束行... 【参考方案1】：

试错法：

执行一些操作，例如将 POSTagged 数据写入文本文件，然后执行 word2vec。然后检查一个单词和一个 POStag 之间的距离，最近的是它的 POS 吗？

那么就会出现相邻标签距离可能相同的问题！

否则之后你可以使用RegEx，绝对值得一试。

但是做第一个并分享结果！ :)

【讨论】：

以上是关于Weka POS 标记 + 标记化的主要内容，如果未能解决你的问题，请参考以下文章

调用weka模拟实现 “主动学习“ 算法

通过使用 POS 标记提高文本分类准确性 - NLP

python 使用parsetree的OpenRefine / jython POS标记

在 Java 中构建/运行流式 Weka 文本分类器

Python NLTK pos_tag 未返回正确的词性标记

WEKA 中的先验