网络爬虫 初了解

Posted jliu520222

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫 初了解相关的知识,希望对你有一定的参考价值。

1. HTTP协议

2. Requests库的7个主要方法

3. Robot协议

4. 网页解析

  BeautifulSoup的解析器- 类的基本元素- 遍历功能

5. 正则表达式

6. 爬虫框架Scrapy

  框架结构- 数据流

7. 分布式爬虫

  多线程爬虫

  多进程爬虫

8. 异步网站数据擦剂

9.爬虫的存储

  媒体文件-把数据存储到CSV-mysql

10. 爬虫的常见技巧

11.防爬虫

 

超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议。所有的www文件都必须遵守这个标准。HTTP协议主要有几个特点:

 

  • 支持客户/服务器模式

  • 简单快捷:客服向服务器发出请求,只需要传送请求方法和路径。请求方法常用的有GET, HEAD, POST。每种方法规定了客户与服务器联系的类型不同。由于HTTP协议简单,使得HTTP服务器的程序规模小,因而通信速度快。

  • 灵活:HTTP允许传输任意类型的数据对象。

  • 无连接:无连接的含义是限制每次连接请求只处理一个请求。服务器处理完客户的请求,收到客户的应答后即断开连接,这种方式可以节省传输时间。

  • 无状态:HTTP协议是无状态协议。无状态是指协议对于事物处理没有记忆能力。缺少状态意味着如果后续处理需要前面的信息,则它必须重传,这样可能导致每次连接传送的数据量增大,另一方面,在服务器不需要先前信息时它的应答就较快。

 

下面通过一张图我们来了解一下访问网页的过程都发生了什么:

--------------------- 本文来自 meichuanyi 的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/meichuanyi/article/details/79293094?utm_source=copy

 

 

技术分享图片

 

以上是关于网络爬虫 初了解的主要内容,如果未能解决你的问题,请参考以下文章

爬虫之初体验

Java网络爬虫初体验

了解爬虫的风险与以及如何规避风险-Java网络爬虫系统性学习与实战系列

了解爬虫的风险与以及如何规避风险-Java网络爬虫系统性学习与实战系列

论如何提升格调——多线程网络爬虫了解一下?

python实战——网络爬虫