Python读取文件去除html&xml标签格式

Posted ZSYL

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python读取文件去除html&xml标签格式相关的知识,希望对你有一定的参考价值。

import re
import sys

file = sys.argv[1]
f = open(file, 'r')

res = ""
for line in f.readlines():
	#str = re.sub(r'</?\\w+[^>]*>','',line)
	str = re.sub(r'<(/|\\?)?\\w+[^>]*>','',line)  # sub:将某个字符串中所有匹配正则表达式的部分替换成其他字符串。
	if str != '\\r\\n':
	res = res + str
	res = re.sub('\\r\\n',' ',res)
	print res

以上是关于Python读取文件去除html&xml标签格式的主要内容,如果未能解决你的问题,请参考以下文章

水文日常~~Python如何按行读取txt文件中的数据并去除每行末尾的回车符

python专题-读取xml文件

Java获取路径方法&相对路径读取xml文件方法

python读取,写入和更新xml文件

python 读取xml文件

尝试使用Python 3读取UTF-8 XML文件