[语音识别] 文本加标点--准备训练数据 (适用于LSTM与BERT)
Posted MachineLP
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[语音识别] 文本加标点--准备训练数据 (适用于LSTM与BERT)相关的知识,希望对你有一定的参考价值。
#下载维基百科数据
# wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
# 解析wikie的xml文件为txt文件
python wikiextractor/WikiExtractor.py zhwiki-latest-pages-articles.xml.bz2 -o wiki.txt
# 将多个txt文件合并为一个
python merge2txt.py
# 将繁体中文转为简体中文
python chinese_t2s.py -i corpus.zhwiki.txt -o corpus.zhwiki.simplified.txt
# 去除英文和空格
python remove_en_blank.py -i corpus.zhwiki.simplified.txt -o corpus.zhwiki.simplified.done.txt
# 选取合适的句子 ( 使用正则:\'[a-zA-Z0-9’"#$%&\\\'()*+-/::<=>@★…【】_-—℃%¥℉°()·「」『』 《》 “”‘’[\\\\]^_`{|}~]+\' )
python select_words.py
# 对句子进行分词
python seg_words.py
# 生成训练数据npy
python generate_train_data.py
# 解析wikie的xml文件为txt文件 :
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# =======================
以上是关于[语音识别] 文本加标点--准备训练数据 (适用于LSTM与BERT)的主要内容,如果未能解决你的问题,请参考以下文章