wikipedia 维基百科语料获取与提取处理 by python3.5

Posted 2020-10-12

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了wikipedia 维基百科语料获取与提取处理 by python3.5相关的知识，希望对你有一定的参考价值。

英文维基百科

https://dumps.wikimedia.org/enwiki/

中文维基百科

https://dumps.wikimedia.org/zhwiki/

全部语言的列表

https://dumps.wikimedia.org/backup-index.html

提取处理可以使用 wikiextractor提取正文（由于网页数量太多，结构又很纷乱，提取出来的会有少许瑕疵，再处理即可）

https://github.com/attardi/wikiextractor

运行命令： python WikiExtractor.py -b 500M -o output_file_name input_file_name.xml

Notice:

1. 建议处理解压后的文件

2. 如果在windows 下面跑，需要设置 fileinput.FileInput() 参数使用 utf-8 编码，如下：

input = fileinput.FileInput(input_file, openhook=fileinput.hook_encoded("utf-8"))

会冲掉原来的设置（跟压缩文件类型相关？）：fileinput.FileInput(openhook=fileinput.hook_compressed)

参考：https://docs.python.org/3.5/library/fileinput.html

以上是关于wikipedia 维基百科语料获取与提取处理 by python3.5的主要内容，如果未能解决你的问题，请参考以下文章

wikipedia 维基百科 语料 获取 与 提取 处理 by python3.5