文本挖掘库或语言库?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本挖掘库或语言库?相关的知识,希望对你有一定的参考价值。
我从我拥有的论坛收集了大量数据,并希望进行一些文本挖掘或使用一些语言库来提取有用的信息。
任何文本挖掘,任何语言的数据挖掘库都可以。
谢谢。
我建议你有a look at R。它有大量的文本挖掘包:have a look at the Natural Language Processing view。特别是,看看tm
包。以下是一些相关链接:
- 关于统计计算期刊中包装的论文:http://www.jstatsoft.org/v25/i05/paper。本文包含一个很好的例子,分析2006年R-devel邮件列表(https://stat.ethz.ch/pipermail/r-devel/)新闻组的帖子。
- 套餐主页:http://cran.r-project.org/web/packages/tm/index.html
- 看看介绍性的小插曲:http://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
另一个有用的包装示例是Gary King's readme package。
你可能想看一下Python NLTK(自然语言工具包):它专门为这类东西而设计。
还有一个great book你可以,但让你开始。
Mallet是一个专为文本挖掘而设计的java库。一旦你预处理了文本数据,像Weka这样的通用数据挖掘工具也足以完成你的任务。
如果您可以访问SPSS或SAS,他们的产品应该更容易使用。
尝试GATE,它有GUI,当然你可以使用java api获得更多功能:http://gate.ac.uk/family/developer.html
您还可以使用Weka处理文本和进行文本挖掘,看看这些有用的讲座:http://sentimentmining.net/weka/
stanford core-nlp适用于英文文本,并且具有命名实体识别等功能。看看:http://nlp.stanford.edu/software/corenlp.shtml
Ehsan已经推荐的GATE也很好,但是如果你需要编写自己的组件,它可能会有点复杂。对于大型的东西,它很棒。
UIMA与GATE类似,但不是那么容易使用,因为它没有像GATE这样的广泛GUI。 (http://uima.apache.org)
我推荐以下Python库:
nltk
keras
tensorflow
注意:在进行任何文本分析之前,您应该根据您的要求清理数据
以上是关于文本挖掘库或语言库?的主要内容,如果未能解决你的问题,请参考以下文章