通过request获取网页资讯 通过BeautifulSoup剖析网页元素

Posted taiyang2014

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了通过request获取网页资讯 通过BeautifulSoup剖析网页元素相关的知识,希望对你有一定的参考价值。

import  requests
res = requests.get(newsUrl)
res.encoding =‘utf-8’
pint
print(res.text)
//然后通过DOM Tree来剖析网页元素
 
 
 
from bs4 import BeautifulSoup
html_sample =‘\
<html>\
<body>\
<h1 id="title">this is h1</h1>\
<a class="link" href="fdfdfdfd">this is a link</a>\
<a class="link" href="fdfdfdfd">this is another link</a>\
</body>\
</html>‘
‘‘‘
html.parser  解析器 ,不写的话会发出警告
‘‘‘
soup = BeautifulSoup(html_sample,‘html.parser’)
print(soup.text)
#找出所有含特定标签的HTML元素
 
#1: 使用select 找出含有h1标签的元素
header = soup.select(‘h1’)
print(header)print(header[0].text ) 
#第0个标签中的文字
 
#2: 使用select找出含有a标签的元素
alink = soup.select(‘a’)
print(alink)
for link in alink:
#print(link)
print(link.text)
#取得含有特定CSS属性的元素
#1使用select找出所有id为title的元素(id前需加#)
 
aTitle = soup.select(‘#title‘)
print(aTitle)
#2使用select找出所有class为link的元素(class前需要加.)
for mylink in soup.select(‘.link‘):
print(mylink)
#取得所有a标签内的链接
#使用select找出所有a tag的href连结
 
ahref = soup.select(‘a‘)
for ah in ahref:
   
print(ah[‘href‘]) 

以上是关于通过request获取网页资讯 通过BeautifulSoup剖析网页元素的主要内容,如果未能解决你的问题,请参考以下文章

无法用requests获取网页源码时,改用selenium获取

Python爬虫之urllib和requests哪个好用--urllib和requests的区别

微信小程序--通过请求网页获取信息并显示

python爬虫使用requests请求无法获取网页元素时终极解决方案

500错误,怎么解决

python几乎无所不能 只有你不知道的,如何通过Python玩转小视频