Python3正则去掉HTML标签
Posted 篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python3正则去掉HTML标签相关的知识,希望对你有一定的参考价值。 1.引用一段代码 2.重点 3.实例 开始 输出 去除标签之后 输出 以上是关于Python3正则去掉HTML标签的主要内容,如果未能解决你的问题,请参考以下文章 php正则,去掉除html标签外的所有空格/换行符等特殊字符?注:html标签内可能会有属性 匹配html 代码中的所有图片标签的正则表达式,取出所有图片标签,去掉其他标签 实例JS 正则表达式提取 html 中纯文本,去掉样式,其它标签 实例JS 正则表达式提取 html 中纯文本,去掉样式,其它标签Python3正则去掉HTML标签
import re
html = ‘<pre class="line mt-10 q-content" accuse="qContent">目的是通过第一次soup.find按class粗略筛选并通过soup.find_all筛选出列表中的a标签并读入href和title属性<br><br>但是由于目标链接可能有图片链接,而这是我不想要的.请问如何去除?<br></pre>‘
reg = re.compile(‘<[^>]*>‘)
print(reg.sub(‘‘,html))
reg = re.compile(‘<[^>]*>‘)
print(reg.sub(‘‘,html))
import requests
import re
from bs4 import BeautifulSoup
retxt=open(‘test.log‘,‘r‘)
for x in range(250,999):
#rurl=rurl.strip(‘
‘)
url=‘http://ananas.mooc1.mti100.com/tologin?fid={0}‘.format(x)
#print(url)
try:
response=requests.get(url,timeout=1).text
#print(response)
soup=BeautifulSoup(response,features="lxml")
result=soup.find_all(‘span‘,attrs={‘class‘:‘l_schoolName2‘})
print(‘学校:{0}‘.format(result))
except requests.exceptions.InvalidURL:
pass
except requests.exceptions.ConnectionError:
pass
except requests.exceptions.ReadTimeout:
pass
学校:[<span class="l_schoolName2" id="schoolName2">
杭州师范大学
</span>]
学校:[<span class="l_schoolName2" id="schoolName2">
import requests
import re
from bs4 import BeautifulSoup
#retxt=open(‘test.log‘,‘r‘)
for x in range(250,999):
#rurl=rurl.strip(‘
‘)
url=‘http://ananas.mooc1.mti100.com/tologin?fid={0}‘.format(x)
#print(url)
try:
response=requests.get(url,timeout=1).text
#print(response)
soup=BeautifulSoup(response,features="lxml")
result=soup.find_all(‘span‘,attrs={‘class‘:‘l_schoolName2‘})
reg=re.compile(‘<[^>]*>‘,re.S)
print(‘学校:{0}‘.format(reg.sub(‘‘,str(result))))
except requests.exceptions.InvalidURL:
pass
except requests.exceptions.ConnectionError:
pass
except requests.exceptions.ReadTimeout:
pass
学校:[]
学校:[]
学校:[
上海电子信息职业技术学院
]
学校:[]
学校:[
超星大学