如何找到句子的主语? [关闭]
Posted
技术标签:
【中文标题】如何找到句子的主语? [关闭]【英文标题】:How do you find the subject of a sentence? [closed] 【发布时间】:2011-09-20 20:06:58 【问题描述】:我是 NLP 的新手,正在研究我应该使用什么语言工具包来执行以下操作。我想做两件事中的一件来完成同样的事情:
我基本上想对一个文本进行分类,通常是一个包含 15 个单词的句子。如果句子是在谈论特定主题,想要分类。
有没有一个工具可以给一个句子,它找出句子的主语。
我正在使用 php 和 Java,但该工具可以是任何在 Linux 命令行上运行的工具
非常感谢。
【问题讨论】:
您将找到一个命令行 NLP 工具列表here。 How to determine if a sentence is talking about a specific subject?的可能重复 也可能与***.com/questions/5556778/…重复 Quin:不好笑,首字母缩略词已经很成熟了。 【参考方案1】:执行此操作的最基本方法是创建一组带标签的训练数据并使用它来训练分类器。分类器的工作原理是一个更复杂的问题 - 对于垃圾邮件过滤和许多其他事情,只需查看词频就可以了。
这是一个基本示例:http://openclas-s-room.stanford.edu/MainFolder/DocumentPage.php?course=MachineLearning&doc=exercises/ex6/ex6.html
编写朴素贝叶斯分类器很简单;像 MALLET 这样的软件包也将具有此功能以及更好的机器学习方法。 Lingpipe也会有这种东西。
您真正应该关心的是数据的质量以及您的功能是什么。我所说的数据质量是指没有那么多边界情况的大量数据,而我所说的特征是指您选择的只是单词,还是单词的组合(单词 ngram),或者依赖特征,或者更复杂的东西。您需要一种方法来创建特征数据以及实际进行学习!从这个意义上说,Lingpipe 很好,因为您可以先进行标记化,而不是编写自己的函数来执行此操作,或者必须将其他工具拼凑到您自己的特征生成代码中。
MALLET 指南可在此处找到:http://courses.washington.edu/ling570/fei_fall10/11_15_Mallet.pdf
【讨论】:
【参考方案2】:NLTK 可以解决问题。
我发现下面的 web 服务 api 很方便,现成可用...
http://text-processing.com/demo/
【讨论】:
以上是关于如何找到句子的主语? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章