Python 的 NLTK 与相关的 Java 库? [关闭]

Posted

技术标签:

【中文标题】Python 的 NLTK 与相关的 Java 库? [关闭]【英文标题】:Python's NLTK vs. related Java Libraries? [closed] 【发布时间】:2011-08-01 04:02:12 【问题描述】:

在我之前的 Java 项目中,我使用过 LingPipe、斯坦福的 NER、RiTa 和各种句子相似度库,这些项目专注于大量英文文本的文本(预)处理(索引、xml 标记、主题检测等)(大约 10,000 个文档总计 > 1gb 的文本)。也许我是一个糟糕的 Java 程序员,但是当我切换到不同的语料库时,我发现自己输入了很多代码并使用了很多库。总的来说,我觉得可能有更好的工具来完成这项工作。

我想我的问题是,我会从切换到 Python 和 NLTK 进行信息检索/语言处理中受益吗?还是有足够的利弊让它变得非常主观? NLTK 是否足够直观,可以快速学习?

我会弄脏我的手,但在接下来的几天里我将无法使用个人机器。

【问题讨论】:

【参考方案1】:

NLTK 适用于自然语言处理。我已经将它用于我的数据挖掘项目。您可以训练自己的分析仪。学习曲线并不陡峭。

NLTK 拥有庞大的语料库来训练您的分析器。您还可以提供自己的数据集,例如,带有词性标签的期刊。

因为python对文本处理非常好,你可以试试看。另外,它有一个在线tutorial

请不要忘记使用 python 2.x 版本。尝试 python 2.6。 NLTK 可能不适用于 python 3.x

【讨论】:

感谢您的建议。似乎该领域的大多数人更喜欢 Python 和 NLTK,但 Java 解决方案的数量之多让我觉得我正在放弃一艘更有活力的船。【参考方案2】:

如果您已经了解 NLP 的基础知识,我认为 NLTK 应该很容易上手。它有一堆文档,两本书,我在streamhacker.com 上写了很多文章和教程。如果您不想丢失 Java 包中的任何内容,理论上您可以使用 Jython(可能还有 execnet)将其与 NLTK 结合起来。

您可能还想看看Pattern 库。

【讨论】:

我想我认识你.....Jacob,在我的毕业论文中引用了你的一些文章! 酷,总是很高兴被引用:) 你不能使用 Jython,因为 jython 上没有 numpy :(.

以上是关于Python 的 NLTK 与相关的 Java 库? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

NLTK 标题分类器

python自然语言处理函数库nltk从入门到精通

Python文本分析(NLTK,jieba,snownlp)

下载|382页 PYTHON自然语言处理中文翻译 NLTK 中文版

Python NLTK库安装Error:Resource u*corpora/gutenberg* not found.

snownlp和nltk啥关系