爬虫基础篇1--爬虫原理
Posted cszshuzi
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫基础篇1--爬虫原理相关的知识,希望对你有一定的参考价值。
1.什么是爬虫?
请求网站并提取数据的自动化程序(让程序替你去上网)
2.爬虫的基本流程
(1)向服务器发起请求
(2)获取网页内容
(3)解析内容
(4)保存数据
3.什么是request和response
请求与响应:
浏览器与服务器(也是一台计算机)之间的交流。
4.request中包含了什么?
(1)请求方式(get,post)
(2)请求的URL
(3)请求头信息
(4)请求体(例如post请求的表单信息)
5.response中包含了什么?
(1)响应状态码(200 0K 404 NO FOUND)
(2)响应头
(3)响应体
6.爬虫可以抓怎样的数据?
网页文本,图片,视频
7.如何解析?
(1)直接处理
(2)json解析
(3)正则表达式
(4)beautifulsoup解析库(pyquery)
8如何保存数据?
文本,关系型数据库,非关系型数据库(key-value),二进制文本
以上是关于爬虫基础篇1--爬虫原理的主要内容,如果未能解决你的问题,请参考以下文章