爬虫基础篇1--爬虫原理

Posted 2021-01-01 cszshuzi

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫基础篇1--爬虫原理相关的知识，希望对你有一定的参考价值。

1.什么是爬虫？
请求网站并提取数据的自动化程序（让程序替你去上网）

2.爬虫的基本流程
（1）向服务器发起请求
（2）获取网页内容
（3）解析内容
（4）保存数据

3.什么是request和response
请求与响应：
浏览器与服务器（也是一台计算机）之间的交流。

4.request中包含了什么？
（1）请求方式（get，post）
（2）请求的URL
（3）请求头信息
（4）请求体（例如post请求的表单信息）

5.response中包含了什么？
（1）响应状态码（200 0K 404 NO FOUND）
（2）响应头
（3）响应体

6.爬虫可以抓怎样的数据？
网页文本，图片，视频

7.如何解析？
（1）直接处理
（2）json解析
（3）正则表达式
（4）beautifulsoup解析库（pyquery）

8如何保存数据？
文本，关系型数据库，非关系型数据库（key-value），二进制文本

以上是关于爬虫基础篇1--爬虫原理的主要内容，如果未能解决你的问题，请参考以下文章