python提取文件中的汉字
Posted 骨头
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python提取文件中的汉字相关的知识,希望对你有一定的参考价值。
读取指定目录下的文件,提取文件中的所有汉字
# -*- coding: utf-8 -*-
import os
import io
import re
fo = open("word.txt", "w")
# 遍历指定目录,显示目录下的所有文件名
def each_file(filepath):
for root, dirs, files in os.walk(filepath):
for file in files:
filename = os.path.join(root, file)
read_file(filename)
def read_file(filename):
with io.open(filename, \'r\', encoding=\'utf-8\', errors=\'ignore\') as fn:
lines = fn.readlines()
han = re.compile(\'"[\\u4e00-\\u9fff]+"\').findall(str(lines))
for val in han:
fo.write(val + "\\n")
if __name__ == \'__main__\':
each_file("src")
以上是关于python提取文件中的汉字的主要内容,如果未能解决你的问题,请参考以下文章