Weka POS 标记 + 标记化

Posted

技术标签:

【中文标题】Weka POS 标记 + 标记化【英文标题】:Weka POS tagging + tokenization 【发布时间】:2016-10-30 07:59:20 【问题描述】:

我是 Weka 的新手。我正在尝试对电影评论进行情感分类。问题是,我可以理解对单词的出现进行标记和属性化的 StringToWord 向量。我也想将词性标签添加到属性词汇表中,但我不知道怎么做?

以前有人试过吗?

拜托,你能指导我吗?

附言。我正在使用 OpenNLP 进行 POS 标记和 Weka J48 分类器

【问题讨论】:

您是否上传了一个文本文件,然后在 Weka 中对其进行标记? 是的,我做到了。我使用 TextDirectoryLoader 类以实例格式和 StringToWordVector 或 tokenization 访问我的数据。现在,我无法理解如何为每个标记化属性添加 POS 标签?我还尝试自己计算单词出现次数并自己创建了一个 ARFF 文件,但它给了我错误 IOException 过早结束行... 【参考方案1】:

试错法:

执行一些操作,例如将 POSTagged 数据写入文本文件,然后执行 word2vec。然后检查一个单词和一个 POStag 之间的距离,最近的是它的 POS 吗?

那么就会出现相邻标签距离可能相同的问题!

否则之后你可以使用RegEx,绝对值得一试。

但是做第一个并分享结果! :)

【讨论】:

以上是关于Weka POS 标记 + 标记化的主要内容,如果未能解决你的问题,请参考以下文章

调用weka模拟实现 “主动学习“ 算法

通过使用 POS 标记提高文本分类准确性 - NLP

python 使用parsetree的OpenRefine / jython POS标记

在 Java 中构建/运行流式 Weka 文本分类器

Python NLTK pos_tag 未返回正确的词性标记

WEKA 中的先验