爬虫的基本原理

Posted 2020-11-24 s686zhou

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫的基本原理相关的知识，希望对你有一定的参考价值。

一.爬虫是什么

　模拟浏览器发送请求---->下载网页代码------>只有提取有用的数据------>存放于数据库或文件中

1.发送请求

　　使用http库向目标站点发起请求，即发送一个Request

　　Request包含：请求头，请求体

2.获取响应内容b

　　如果服务器能正常响应，则会得到一个Response

　　Response包含:html,json,图片，视频等
3.解析内容

解析html数据：正则表达式，第三方解析库和Beautifulsoup,pyquery等

解析json数据:json模块

解析二进制数据:以b的方式写入文件

4.保存数据

数据库

文件

1.总结爬虫流程:

　　爬虫----->解析------->存储

2.爬虫所需工具

　　请求库:request,selenium

　　解析库:正则,beautifulsoup,pyquery

　　存储库:文件，mysql,Mongodb,Redis

3.爬虫常用框架:

　　scrapy

以上是关于爬虫的基本原理的主要内容，如果未能解决你的问题，请参考以下文章