中文维基数据处理 - 1. 下载与清洗
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中文维基数据处理 - 1. 下载与清洗相关的知识,希望对你有一定的参考价值。
1. 数据下载
一些重要的链接:
- 最新转储
需要zhwiki-latest-pages-articles.xml.bz2
这个文件 - 中文维基的页面统计信息
目前内容页面数大约是 978K
2. 数据处理
选择了 Gensim 这个主题工具包进行数据预处理。
2.1 xml 转 json
python -m gensim.scripts.segment_wiki -f zhwiki-latest-pages-articles.xml.bz2 | gzip > zhwiki-latest.json.gz
然后就转换成了可被 Python 直接读取的 json 文档。
2.2 测试数据
from smart_open import smart_open
import json
x = 0
for line in smart_open(‘zhwiki-latest.json.gz‘):
article = json.loads(line)
print("Article title: %s" % article[‘title‘])
for section_title, section_text in zip(article[‘section_titles‘], article[‘section_texts‘]):
print("Section title: %s" % section_title)
print("Section text: %s" % section_text)
x += 1
if x == 5:
break
运行如上代码可以输出中文维基中的前 5 篇文档。
2.3 分词 / 命名实体识别 / 关系抽取
没写。
以上是关于中文维基数据处理 - 1. 下载与清洗的主要内容,如果未能解决你的问题,请参考以下文章