爬虫入门第3课:实现代理池思路

Posted 黑马程序员官方

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫入门第3课:实现代理池思路相关的知识,希望对你有一定的参考价值。

爬虫学习知识点及案例篇(汇总):

爬虫入门第1课:代理池概述及开发环境

爬虫入门第2课:代理池的设计

本阶段带大家从代理池的设计开始,学习Python爬虫及项目实战,详情关注上方专栏 ↑↑↑


  • 目标: 明确代理池实现思路
  • 步骤:
    • 介绍实现项目的两种实现思路
    • 对比两种实现思路
    • 明确代理池采用实现思路

实现项目的两种实现思路:

  • 思路1: 

    • 依据项目的设计的流程图, 一步一步进行实现,
    • 遇到需要依赖于其他模块的地方,就暂停当前的模块, 去实现其他模块中需要使用功能.
    • 其他模块实现后,再回来接着写当前模块.
  • 思路2:

    • 先实现基础模块, 这些模块不依赖于其他的模块. 比如我们这里: 数据模型, 校验模块, 数据库模块
    • 然后实现具体的功能模块,比如爬虫模块, 检测模块, 代理API模块
  • 对比

    • 思路1: 按照流程一步步实现, 适合一个人完成一个项目, 流程清晰. 但是不适合分工合作
    • 思路2: 把项目拆分为多个相对独立模块, 每一个人实现一个模块, 适合分工合作; 实现项目也会更加流畅, 不会有跳来跳去现象. 对最初设计要求比较高, 要提前设计好后面需要使用到的接口.
  • 代理池项目采用的实现思路:

    • 我们这里采用思路2来进行实现

小结

  • 代理池实现思路: 先实现不依赖其他模块的基础模块, 然后再实现具体功能模块.

以上是关于爬虫入门第3课:实现代理池思路的主要内容,如果未能解决你的问题,请参考以下文章

爬虫入门第9课:实现代理池的检测模块

爬虫入门第10课:实现代理池的API模块

爬虫入门第11课:实现代理池的启动入口

爬虫入门第7课:实现代理池的数据库模块

爬虫入门第6课:实现代理池的校验模块

爬虫入门第2课:代理池的设计