Mac Os 上的 nltk 语料库位置

Posted

技术标签:

【中文标题】Mac Os 上的 nltk 语料库位置【英文标题】:nltk corpus location on Mac Os 【发布时间】:2016-07-09 21:01:04 【问题描述】:

请问,有人在 Mac OS 上的 Eclipse IDE 上使用 nltk 吗?我正在尝试定位 nltk 语料库数据的存储位置。我做了一些挖掘,发现它们位于我的机器上的这条路径: /Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/nltk/init.pyc 但是当我进入 nltk 目录时,我发现了一个 corpus 文件夹,但里面和 corpus 没有任何相似之处。有人对下一步做什么有提示吗?

【问题讨论】:

你已经下载了语料库了吗?基本安装不附带它。 @MattDMo,不是吗?我认为它是自带的,因为我在 nltk 目录中找到了语料库文件夹。那么,关于如何下载语料库的任何提示? 打印 nltk.data.path 以查看 NLTK 在您的计算机上搜索语料库的位置。 【参考方案1】:

在 MacOS 上,它似乎默认为您的主目录,所以 /Users/X/nltk_data。但是,这取决于您安装它的位置。根据 MattDMo 的评论,如果您找不到所需的内容,打开 GUI 可以为您提供更多答案:

import nltk
nltk.download()

如果您只想将其安装在特定位置,请考虑命令行选项(这对 Docker 和脚本也很有用):

python3 -m nltk.downloader -d /Users/X/nltk_data all

【讨论】:

【参考方案2】:

Corpora 不是作为基本 nltk 包的一部分分发的,因为并非该模块的所有用户都需要它们,而且其中许多都非常大 - 最后我检查了一下,有一个被列为 1.7 GB,而不是几乎任何人都可以轻松下载。

但是,如果您阅读了出色的 NLTK docs,您将立即了解如何选择要下载的语料库:

>>> import nltk
>>> nltk.download()

这将打开一个漂亮的基于 Tk 的 GUI(在适当的环境中)或一个基于文本的 GUI,并允许您搜索、选择和下载感兴趣的语料库,甚至获取所有内容,这在高技术圈子中是众所周知的作为“整个shebang”。您甚至可以选择存储新下载的语料库的目录。简单!

您以某种方式找到的corpus 目录包含nltk.corpus 的源代码,其中包含处理语料库的工具,而不是实际的语料库本身。

【讨论】:

以上是关于Mac Os 上的 nltk 语料库位置的主要内容,如果未能解决你的问题,请参考以下文章

NLTK:语料库级别的 BLEU 与句子级别的 BLEU 分数

使用 NLTK 创建新语料库

使用 NLTK 创建新语料库

自然语言处理——NLTK文本语料库

NLTK - 在自定义语料库中解码Unicode

以编程方式安装 NLTK 语料库/模型,即没有 GUI 下载器?