网络爬虫初了解

Posted 2021-01-09 jliu520222

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了网络爬虫初了解相关的知识，希望对你有一定的参考价值。

1. HTTP协议

2. Requests库的7个主要方法

3. Robot协议

4. 网页解析

　　BeautifulSoup的解析器- 类的基本元素- 遍历功能

5. 正则表达式

6. 爬虫框架Scrapy

　　框架结构- 数据流

7. 分布式爬虫

　　多线程爬虫

　　多进程爬虫

8. 异步网站数据擦剂

9.爬虫的存储

　　媒体文件-把数据存储到CSV-mysql

10. 爬虫的常见技巧

11.防爬虫

超文本传输协议（HTTP，HyperText Transfer Protocol）是互联网上应用最为广泛的一种网络协议。所有的www文件都必须遵守这个标准。HTTP协议主要有几个特点：

支持客户/服务器模式
简单快捷：客服向服务器发出请求，只需要传送请求方法和路径。请求方法常用的有GET, HEAD, POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单，使得HTTP服务器的程序规模小，因而通信速度快。
灵活：HTTP允许传输任意类型的数据对象。
无连接：无连接的含义是限制每次连接请求只处理一个请求。服务器处理完客户的请求，收到客户的应答后即断开连接，这种方式可以节省传输时间。
无状态：HTTP协议是无状态协议。无状态是指协议对于事物处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息，则它必须重传，这样可能导致每次连接传送的数据量增大，另一方面，在服务器不需要先前信息时它的应答就较快。

下面通过一张图我们来了解一下访问网页的过程都发生了什么：

--------------------- 本文来自 meichuanyi 的CSDN 博客，全文地址请点击：https://blog.csdn.net/meichuanyi/article/details/79293094?utm_source=copy

技术分享图片

以上是关于网络爬虫初了解的主要内容，如果未能解决你的问题，请参考以下文章

网络爬虫 初了解