DrQA安装手册
Posted bayolante
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DrQA安装手册相关的知识,希望对你有一定的参考价值。
DrQA安装手册
2017年,斯坦福大学和 Facebook人工智能研究所在 arXiv 发布了一个基于维基百科的开放域问题问答系统 DrQA。DrQA 是一个开放域的问答系统,在向 DrQA 系统输入一段文本,然后提一个答案能在该文本中找到的问题,DrQA 就能准确地给出这个问题的答案(不基于上下文逻辑推理)。
DrQA模型主要分为两部分,第一部分Retriever和第二部分Reader,Retriever的作用是从众多文章中选择出可能包含答案的候选文章,而Reader则从候选文章中提取出问题的答案。DrQA具体的原理可以见论文。
论文地址:https://arxiv.org/abs/1704.00051
开源地址:https://github.com/facebookresearch/DrQA
以下为DrQA系统的安装流程:
- 安装Python3.5:
DrQA需要Python3.5以上,Python3.5的安装就不再叙述.
2.安装Anaconda:
Anaconda是一个用于科学计算的Python发行版,支持Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了Python和相关的配套工具。 安装步骤如下:
(1)从https://repo.continuum.io/archive/index.html上下载对应版本的Anaconda版本,解压到指定位置并进入目录。
(2) 运行命令 bash Anaconda3-5.2.0-Linux-x86_64.sh 进行安装。
(3) 运行 echo ‘export PATH="~/anaconda2/bin:$PATH"‘ >> ~/.bashrc 进行配置。
(4)运行命令 source ~/.bashrc 使配置生效。
3.安装PyTorch
PyTorch一个基于Python的科学计算包,是DrQA的必备计算包。注意!DrQA官网上如此描述:DrQA requires Linux/OSX and Python 3.5 or higher. It also requires installing PyTorch (version 0.4.0 is not supported yet),所以建议安装0.4以下的PyTorch,可以访问https://pytorch.org/ 根据自身相应的配置生成安装命令。
在装了Anaconda后,仅需 conda install pytorch=0.3.0 -c soumith 即可自动安装PyTorch及依赖包。
4.安装DrQA
这部分在DrQA的github上有很详细的介绍。具体流程如下:
(1)安装DrQA及依赖包
git clone https://github.com/facebookresearch/DrQA.git
cd DrQA
pip install -r requirements.txt
python setup.py develop
requirements.txt记录了DrQA系统依赖的各种包,执行命令后便会自动下载安装并更新。
(2)安装tokenizer
tokenizer可以有两种选择,一种是斯坦福的CoreNLP,另外一种是Spacy。官网描述如下:
If you use the CoreNLPTokenizer or SpacyTokenizer you also need to download the Stanford CoreNLP jars and spaCy enmodel, respectively. If you use Stanford CoreNLP, have the jars in your java CLASSPATH environment variable, or set the path programmatically with:
import drqa.tokenizers
drqa.tokenizers.set_default(‘corenlp_classpath‘,‘/your/corenlp/classpath/*‘)
DrQA默认的tokenizer为CoreNlp,可以运行命令 ./install_corenlp.sh进行下载安装。
安装好后可以选择自动添加到环境变量,但是有时用DrQA自动的方式添加到环境变量会不正确,建议还是按照官网的方法手动添加。如有需要用spacy的可以运行命令 python -m spacy download en。
(3)下载数据集,词向量等
运行命令即可自动下载数据集和词向量bash ./download.sh下载量比较大,大约7.5G。
至此DrQA安装完成,运行python scripts/pipeline/interactive.py来尝试DrQA的demo。
以上是关于DrQA安装手册的主要内容,如果未能解决你的问题,请参考以下文章