爬虫的基本流程

Posted onlyhold

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫的基本流程相关的知识,希望对你有一定的参考价值。

1、把页面放入到BeautifulSoup容器当中

with open(‘D:/xxxxx/the_blah.html‘,
‘r‘)as web_data:
soup = BeautifulSoup(web_data, ‘lxml‘)

2、获取页元素

images = soup.select(‘body > div.main-content > ul > li > img‘)
titles = soup.select(‘body > div.main-content > ul > li > h3 > a‘)
info = soup.select(‘body > div.main-content > ul > li > p‘)

3、筛选元素的具体信息

for image, title, info in zip(images, titles, infos):
data = {
‘title‘: title.get_text(), #获取标签的值
‘image‘: image.get(‘src‘), #获取标签中的属性
‘info‘: info.get_text()
}

 

以上是关于爬虫的基本流程的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫--基本流程

scrapy主动退出爬虫的代码片段(python3)

Python爬虫爬虫的基本原理

入门须知之网络爬虫的基本流程及抓取策略

Python网络爬虫的基本流程与准备

Python 爬虫 4爬虫基本原理