爬虫的基本原理
Posted s686zhou
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫的基本原理相关的知识,希望对你有一定的参考价值。
一.爬虫是什么
模拟浏览器发送请求---->下载网页代码------>只有提取有用的数据------>存放于数据库或文件中
二.爬虫的基本流程
1.发送请求
使用http库向目标站点发起请求,即发送一个Request
Request包含:请求头,请求体
2.获取响应内容b
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等
3.解析内容
解析html数据:正则表达式,第三方解析库和Beautifulsoup,pyquery等
解析json数据:json模块
解析二进制数据:以b的方式写入文件
4.保存数据
数据库
文件
六.总结
1.总结爬虫流程:
爬虫----->解析------->存储
2.爬虫所需工具
请求库:request,selenium
解析库:正则,beautifulsoup,pyquery
存储库:文件,mysql,Mongodb,Redis
3.爬虫常用框架:
scrapy
以上是关于爬虫的基本原理的主要内容,如果未能解决你的问题,请参考以下文章