Python爬虫的步骤和工具

Posted vvlj

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫的步骤和工具相关的知识,希望对你有一定的参考价值。

#四个步骤

1.查看crawl内容的源码格式          crawl的内容可以是 url(链接),文字,图片,视频

2.请求网页源码        (可能要设置)代理,限速,cookie

3.匹配            用正则表达式匹配

4.保存数据          文件操作

 

#两个基本工具(库)

1.urllib

2.requests

 

#使用reuests库的一个例子,抓取可爱图片

import requests  #导入库
import re
                   
url =r‘https://www.woyaogexing.com/tupian/keai‘   #链接
response =requests.get(url)                                   #get()函数,得到网页
response.encoding =‘utf-8‘          #让源码中的中文正常显示
html =response.text             #加载网页源码
strs =‘<div class="txList_1 .">.*?src="(.*?)".*?>‘   #正则表达式
patern =re.compile(strs,re.S)         #封装成对象,以便多次使用
items =re.findall(patern,html)         #匹配
for i in  items:
    with open(‘%d.jpg‘%items.index(i),‘wb‘) as file: #新建文件,以二进制写形式‘wb‘
        url =‘https:‘+i
        file.write(requests.get(url).content)    #写入数据,图片是二进制数据

 













以上是关于Python爬虫的步骤和工具的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫步骤 (新手备学 )爬虫编程。

python爬虫零基础入门——反爬的简单说明

如何用Python爬虫实现百度图片自动下载?

python爬虫

Python爬虫框架Scrapy安装使用步骤

Python爬虫实战,完整的思路和步骤(附源码)