Weka POS 标记 + 标记化
Posted
技术标签:
【中文标题】Weka POS 标记 + 标记化【英文标题】:Weka POS tagging + tokenization 【发布时间】:2016-10-30 07:59:20 【问题描述】:我是 Weka 的新手。我正在尝试对电影评论进行情感分类。问题是,我可以理解对单词的出现进行标记和属性化的 StringToWord 向量。我也想将词性标签添加到属性词汇表中,但我不知道怎么做?
以前有人试过吗?
拜托,你能指导我吗?
附言。我正在使用 OpenNLP 进行 POS 标记和 Weka J48 分类器 !
【问题讨论】:
您是否上传了一个文本文件,然后在 Weka 中对其进行标记? 是的,我做到了。我使用 TextDirectoryLoader 类以实例格式和 StringToWordVector 或 tokenization 访问我的数据。现在,我无法理解如何为每个标记化属性添加 POS 标签?我还尝试自己计算单词出现次数并自己创建了一个 ARFF 文件,但它给了我错误 IOException 过早结束行... 【参考方案1】:试错法:
执行一些操作,例如将 POSTagged 数据写入文本文件,然后执行 word2vec。然后检查一个单词和一个 POStag 之间的距离,最近的是它的 POS 吗?
那么就会出现相邻标签距离可能相同的问题!
否则之后你可以使用RegEx,绝对值得一试。
但是做第一个并分享结果! :)
【讨论】:
以上是关于Weka POS 标记 + 标记化的主要内容,如果未能解决你的问题,请参考以下文章
python 使用parsetree的OpenRefine / jython POS标记