Mac Os 上的 nltk 语料库位置
Posted
技术标签:
【中文标题】Mac Os 上的 nltk 语料库位置【英文标题】:nltk corpus location on Mac Os 【发布时间】:2016-07-09 21:01:04 【问题描述】:请问,有人在 Mac OS 上的 Eclipse IDE 上使用 nltk 吗?我正在尝试定位 nltk 语料库数据的存储位置。我做了一些挖掘,发现它们位于我的机器上的这条路径: /Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/nltk/init.pyc 但是当我进入 nltk 目录时,我发现了一个 corpus 文件夹,但里面和 corpus 没有任何相似之处。有人对下一步做什么有提示吗?
【问题讨论】:
你已经下载了语料库了吗?基本安装不附带它。 @MattDMo,不是吗?我认为它是自带的,因为我在 nltk 目录中找到了语料库文件夹。那么,关于如何下载语料库的任何提示? 打印nltk.data.path
以查看 NLTK 在您的计算机上搜索语料库的位置。
【参考方案1】:
在 MacOS 上,它似乎默认为您的主目录,所以 /Users/X/nltk_data
。但是,这取决于您安装它的位置。根据 MattDMo 的评论,如果您找不到所需的内容,打开 GUI 可以为您提供更多答案:
import nltk
nltk.download()
如果您只想将其安装在特定位置,请考虑命令行选项(这对 Docker 和脚本也很有用):
python3 -m nltk.downloader -d /Users/X/nltk_data all
【讨论】:
【参考方案2】:Corpora 不是作为基本 nltk
包的一部分分发的,因为并非该模块的所有用户都需要它们,而且其中许多都非常大 - 最后我检查了一下,有一个被列为 1.7 GB,而不是几乎任何人都可以轻松下载。
但是,如果您阅读了出色的 NLTK docs,您将立即了解如何选择要下载的语料库:
>>> import nltk
>>> nltk.download()
这将打开一个漂亮的基于 Tk 的 GUI(在适当的环境中)或一个基于文本的 GUI,并允许您搜索、选择和下载感兴趣的语料库,甚至获取所有内容,这在高技术圈子中是众所周知的作为“整个shebang”。您甚至可以选择存储新下载的语料库的目录。简单!
您以某种方式找到的corpus
目录包含nltk.corpus
的源代码,其中包含处理语料库的工具,而不是实际的语料库本身。
【讨论】:
以上是关于Mac Os 上的 nltk 语料库位置的主要内容,如果未能解决你的问题,请参考以下文章