python提取文件中的汉字

Posted 骨头

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python提取文件中的汉字相关的知识,希望对你有一定的参考价值。

读取指定目录下的文件,提取文件中的所有汉字

# -*- coding: utf-8 -*-

import os
import io
import re

fo = open("word.txt", "w")

# 遍历指定目录,显示目录下的所有文件名
def each_file(filepath):
  for root, dirs, files in os.walk(filepath):
    for file in files:
      filename = os.path.join(root, file)
      read_file(filename)

def read_file(filename):
  with io.open(filename, \'r\', encoding=\'utf-8\', errors=\'ignore\') as fn:
    lines = fn.readlines()
    han = re.compile(\'"[\\u4e00-\\u9fff]+"\').findall(str(lines))
    for val in han:
      fo.write(val + "\\n")



if __name__ == \'__main__\':
  each_file("src")

以上是关于python提取文件中的汉字的主要内容,如果未能解决你的问题,请参考以下文章

python如何提取本地html中的所有汉字?求大神!!!

python从含有汉字和数字的字符串中提取数字部分

Python批量提取txt文件中的特定字符后的数字?

如何提取PDU格式文件里的汉字和图片

怎样把其中的汉字提取出来呀,求Python大佬解答

DELPHI 字符串中的汉字处理