爬虫的基本理念
Posted zhangqing979797
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫的基本理念相关的知识,希望对你有一定的参考价值。
什么是爬虫?
请求网站并提取数据的自动化程序
爬虫基本流程
1.发起请求,通过HTTP库向目标站点发起请求,即发送一个Request,请求包含额外的headers信息
2.获取响应内容,如果服务器正常相应,得到一个Response
3.解析内容,得到的内容可能是html,JSON,二进制数,可以保存或进一步处理
4.保存数据,保持形式多样,可以保存到数据库或文本
request
GET
POST 含有formdata
请求的url ,统一资源定位符
RequestHeaders 请求头 UA Host Cookies
response
状态码
响应头 set-cookie
响应体
response.headers 响应头
response.status——code 响应状态码
可以抓怎样的数据
1.网页文本 HTML,JSON,等
2.图片 response.content 响应体的二进制形式
3.视频 二进制抓取
4.其他
解析方式
1.直接处理 返回字符串
2.Json解析
3.正则表达式
4.BS4 解析库
5.PyQuery
6.Xpath
为什么我抓的和浏览的不一样?
一些数据都是通过js代码,他们发送ajax请求获取到的后台数据来在前端显示
怎样解决JS渲染问题?
1.分析ajax请求
2.Selenium/Webdriver
3.Splash
4.pyv8
怎样保存数据?
1.文本
2.数据库
以上是关于爬虫的基本理念的主要内容,如果未能解决你的问题,请参考以下文章