python爬虫

Posted 2021-01-02 maxxx

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python爬虫相关的知识，希望对你有一定的参考价值。

python爬虫

一.爬虫 WHAT

通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片/视频）爬到本地，进而提取自己所需的数据，存放起来使用。

二.爬虫 WAY

获取网络数据的方式：

①.浏览器提交请求→下载网页代码→解析成网页

②.模拟浏览器发送请求（获取网页代码）→提取有用的数据→存放在数据库或文件中 [爬虫所要做的]

发送请求→获取响应内容→解析内容→保存数据

1.发送请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

Request模块缺陷:不能执行JS和CSS代码

2.获取响应内容

服务器正常响应，则会得到一个Responce

Response包含：html，json，图片，视屏等

3.解析内容

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以wb的方式写入文件

4.保存数据

数据库（MySQL,Mongdb，Redis）

三.爬虫 WHY

Request：用户将自己的信息通过浏览器（socket client）发送给服务器（socket sever）

Response：服务器接收请求，分析用户发来的请求信息，然后返回数据

浏览器在接收到Responce后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中有用的数据。

Request{

①.请求方式（常见的）：GET/POST

②.请求的URL：url全球统一资源定位符，用来定义互联网上的一个唯一的资源，如一张图片、一个文件、一段视频都可以用url唯一确定

网页加载过程：加载一个网页，通常都是先加载document文档，在解析document文档的时候，遇到链接，则针对超链接发起下载图片的请求

③.请求头（一般爬虫都会加上请求头）:

User-agent：请求头中如果没有user-agent客户端配置，服务器可能将你当作一个非法用户host；

cookies：cookies用来保存登录信息

请求头需要注意的参数：

1.Referrer：访问源哪里来的（一些大型网站，会通过Referrer做防盗链策略，所有爬虫也要注意模拟）

2.User-agent：访问的浏览器（要加上否则会被当成爬虫程序）

3.cookie：请求头注意携带

④.请求体

如果是get方式，请求体没有内容（get请求的请求体放在url后面参数中，直接能看到）

如果是post方式，请求体是format data

ps：登录窗口、文件上传等，信息都会被附加到请求体内；登录，输入错误的用户密码，然后提交，就可以看到post，正确登录后页面通常会跳转，无法捕捉到post

⑤.响应Response

1.响应状态码:

202:代表成功

301：代表跳转

404：文件不存在

403：无权限访问

502：服务器错误

2.response header

响应头需要注意的参数：

Set-Cookies：BDSVRTM=0;path=/：可能有多个，是来告诉浏览器，把cookie保存下来

Content-Location：服务端响应头中包含Location返回浏览器之后，浏览器就会重新访问另一个页面

Preview就是网页源代码 JSON数据如网页html，图片二进制数据等

}

四.爬虫总结

爬虫流程：爬取→解析→存储

爬虫所需工具：

请求库：request，selenium

解析库：正则，beautifulsoup，pyquery

存储库：文件，MySQL，Mongdb，Redis

以上是关于python爬虫的主要内容，如果未能解决你的问题，请参考以下文章

python爬虫

python爬虫

一.爬虫 WHAT

二.爬虫 WAY

1.发送请求

2.获取响应内容

3.解析内容

4.保存数据

三.爬虫 WHY

四.爬虫 总结

四.爬虫总结