wikipedia 维基百科 语料 获取 与 提取 处理 by python3.5

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了wikipedia 维基百科 语料 获取 与 提取 处理 by python3.5相关的知识,希望对你有一定的参考价值。

英文维基百科

https://dumps.wikimedia.org/enwiki/

中文维基百科

https://dumps.wikimedia.org/zhwiki/

全部语言的列表

https://dumps.wikimedia.org/backup-index.html

 

提取处理可以使用 wikiextractor提取正文(由于网页数量太多,结构又很纷乱,提取出来的会有少许瑕疵,再处理即可)

https://github.com/attardi/wikiextractor

运行命令:  python WikiExtractor.py -b 500M -o output_file_name  input_file_name.xml

 

Notice:

1. 建议处理解压后的文件

2. 如果在windows 下面跑,需要设置  fileinput.FileInput() 参数使用 utf-8 编码,如下:

input = fileinput.FileInput(input_file, openhook=fileinput.hook_encoded("utf-8"))

会冲掉原来的设置(跟压缩文件类型相关?):fileinput.FileInput(openhook=fileinput.hook_compressed)

参考:https://docs.python.org/3.5/library/fileinput.html

 

以上是关于wikipedia 维基百科 语料 获取 与 提取 处理 by python3.5的主要内容,如果未能解决你的问题,请参考以下文章

Python - BS4 - 仅使用表头+保存为字典从维基百科表中提取子表

搜索和浏览离线 Wikipedia 维基百科(中/英)数据工具

JWPL工具处理维基百科wikipedia数据用于NLP

python学习之----遍历单个域名和随机数

Windows3.5下对维基百科语料用word2vec进行训练寻找同义词相似度

02-NLP-gensim中文处理案例