爬虫的基本原理

Posted s686zhou

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫的基本原理相关的知识,希望对你有一定的参考价值。

一.爬虫是什么

 模拟浏览器发送请求---->下载网页代码------>只有提取有用的数据------>存放于数据库或文件中

二.爬虫的基本流程

1.发送请求

  使用http库向目标站点发起请求,即发送一个Request

  Request包含:请求头,请求体

2.获取响应内容b

  如果服务器能正常响应,则会得到一个Response

  Response包含:html,json,图片,视频等
3.解析内容

解析html数据:正则表达式,第三方解析库和Beautifulsoup,pyquery等

解析json数据:json模块

解析二进制数据:以b的方式写入文件

4.保存数据

数据库

文件

六.总结

1.总结爬虫流程:

  爬虫----->解析------->存储

2.爬虫所需工具

  请求库:request,selenium

  解析库:正则,beautifulsoup,pyquery

  存储库:文件,mysql,Mongodb,Redis

3.爬虫常用框架:

  scrapy

 

 

 

 

 

 

 

 

 

 

 

 

 

 

以上是关于爬虫的基本原理的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫知识点——爬虫的基本原理

python爬虫基本原理及入门

爬虫基本原理讲解

04-爬虫的基本原理

爬虫基本原理

爬虫从入门到放弃——爬虫的基本原理