接着上次的python爬虫,今天进阶一哈,局部解析爬取网页数据

Posted 赤赤元

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了接着上次的python爬虫,今天进阶一哈,局部解析爬取网页数据相关的知识,希望对你有一定的参考价值。

*解析网页数据的仓库

用Beatifulsoup基于lxml包
lxml包基于html和xml的标记语言的解析包。可以去解析网页的内容,把我们想要的提取出来。
第一步、导入两个包,项目中必须包含beautifulsoup4和lxml
 
第二步、先去获取网页的数据
def get_html():
url="http://www.scetc.net"
response=request.get(url)
response.encoding="UTF-8"
return response.text
第三步、导入Beautifulsoup对象
from bs4 import BeautifulSoup
第四步、解析网页内容
解析的方式文本格式就是 :
标记#id或者.class,如果有层次标记则空格 在后面加标记就可以了。
请注意一点就是select方法返回的肯定是列表,所以获取数据的时候需要遍历
 

*下载网上的其他资源

案例就是下载图片资源:
res = requests.get(url+stu_id+".jpg", stream=True)
file=open(stu_id+".jpg",\'wb\')
for chunk in res.iter_content(chunk_size=32):
    file.write(chunk)
file.close()

以上是关于接着上次的python爬虫,今天进阶一哈,局部解析爬取网页数据的主要内容,如果未能解决你的问题,请参考以下文章

全网最全python爬虫系统进阶学习(附原代码)学完可就业

全网最全python爬虫系统进阶学习(附原代码)学完可就业

Python爬虫从入门到进阶之urllib库的使用

Python爬虫进阶(Scrapy框架爬虫)

全方面的掌握Requests库的使用【python爬虫入门进阶】(02)

Python爬虫进阶——JsonPath使用案例