使用 Weka 进行句子分类
Posted
技术标签:
【中文标题】使用 Weka 进行句子分类【英文标题】:Sentence classification using Weka 【发布时间】:2012-08-31 03:19:17 【问题描述】:我想用 Weka 对句子进行分类。我的特征是句子术语(单词)和每个术语的词性标签。我不知道图形属性如何,因为如果每个术语都作为一个特征呈现,每个实例(句子)的特征数量就会变得不同。并且,如果句子中的所有单词都作为一个特征呈现,那么单词和它们的词性标签是如何关联的。
任何想法我应该如何进行?
【问题讨论】:
作为输入,您有一个带有单词和词性标签的句子,但是您想要什么作为输出?简单的二元分类,给定一个句子,输出是True
或False
?或者您是否有多个标签(例如,您想要对句子进行分类的类别)?
这是一个简单的二分类问题。
【参考方案1】:
如果我对问题的理解正确,答案如下:最常见的做法是独立于单词在句子中的位置来对待单词,并在特征空间中用每个已知单词出现的次数来表示一个句子那句话。 IE。训练数据中存在的每个单词通常都有一个单独的数字特征。或者,如果您愿意使用 n-gram,则为训练数据中的每个 n-gram 提供一个单独的特征(可能具有一些频率阈值)。
至于 POS 标签,将它们用作单独的特征可能是有意义的,但前提是您感兴趣的分类与句子结构(句法)有关。否则,您可能只想将 POS 标签附加到单词上,这样可以部分消除可以代表不同词性的单词的歧义。
【讨论】:
以上是关于使用 Weka 进行句子分类的主要内容,如果未能解决你的问题,请参考以下文章