Python读取文件去除html&xml标签格式
Posted ZSYL
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python读取文件去除html&xml标签格式相关的知识,希望对你有一定的参考价值。
import re
import sys
file = sys.argv[1]
f = open(file, 'r')
res = ""
for line in f.readlines():
#str = re.sub(r'</?\\w+[^>]*>','',line)
str = re.sub(r'<(/|\\?)?\\w+[^>]*>','',line) # sub:将某个字符串中所有匹配正则表达式的部分替换成其他字符串。
if str != '\\r\\n':
res = res + str
res = re.sub('\\r\\n',' ',res)
print res
以上是关于Python读取文件去除html&xml标签格式的主要内容,如果未能解决你的问题,请参考以下文章