爬虫基础篇1--爬虫原理

Posted cszshuzi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫基础篇1--爬虫原理相关的知识,希望对你有一定的参考价值。

1.什么是爬虫?
请求网站并提取数据的自动化程序(让程序替你去上网)


2.爬虫的基本流程
(1)向服务器发起请求
(2)获取网页内容
(3)解析内容
(4)保存数据


3.什么是request和response
请求与响应:
浏览器与服务器(也是一台计算机)之间的交流。


4.request中包含了什么?
(1)请求方式(get,post)
(2)请求的URL
(3)请求头信息
(4)请求体(例如post请求的表单信息)


5.response中包含了什么?
(1)响应状态码(200 0K 404 NO FOUND)
(2)响应头
(3)响应体


6.爬虫可以抓怎样的数据?
网页文本,图片,视频


7.如何解析?
(1)直接处理
(2)json解析
(3)正则表达式
(4)beautifulsoup解析库(pyquery)


8如何保存数据?
文本,关系型数据库,非关系型数据库(key-value),二进制文本




























以上是关于爬虫基础篇1--爬虫原理的主要内容,如果未能解决你的问题,请参考以下文章

如何入门爬虫(基础篇)

如何入门爬虫(基础篇)

爬虫进阶爬虫概述基础篇(回炉重造)

从python基础到爬虫的书有啥值得推荐

学习爬虫看着篇(基础篇)

零基础掌握百度地图兴趣点获取POI爬虫(python语言爬取)(基础篇)