爬虫入门第10课:实现代理池的API模块

Posted 黑马程序员官方

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫入门第10课:实现代理池的API模块相关的知识,希望对你有一定的参考价值。

爬虫学习知识点及案例篇(汇总):

爬虫入门第1课:代理池概述及开发环境

爬虫入门第2课:代理池的设计

爬虫入门第3课:实现代理池思路

爬虫入门第4课:定义代理IP的数据模型类

爬虫入门第5课:实现代理池工具模块

爬虫入门第6课:实现代理池的校验模块

爬虫入门第7课:实现代理池的数据库模块

爬虫入门第8课:实现代理池的爬虫模块

爬虫入门第9课:实现代理池的检测模块

Python爬虫项目:Bilibili模拟登陆(滑动验证码)

本阶段带大家从代理池的设计开始,学习Python爬虫及项目实战,详情关注上方专栏 ↑↑↑


  • 目标:

    • 为爬虫提供高可用代理IP的服务接口
  • 步骤:

    • 实现根据协议类型和域名, 提供随机的获取高可用代理IP的服务
    • 实现根据协议类型和域名, 提供获取多个高可用代理IP的服务
    • 实现给指定的IP上追加不可用域名的服务
  • 实现:

    • 在proxy_api.py中, 创建ProxyApi
    • 实现初始方法
      • 初始一个Flask的Web服务
      • 实现根据协议类型和域名, 提供随机的获取高可用代理IP的服务
        • 可用通过 protocol 和 domain 参数对IP进行过滤
        • protocol: 当前请求的协议类型
        • domain: 当前请求域名
      • 实现根据协议类型和域名, 提供获取多个高可用代理IP的服务
        • 可用通过protocol 和 domain 参数对IP进行过滤
      • 实现给指定的IP上追加不可用域名的服务
        • 如果在获取IP的时候, 有指定域名参数, 将不在获取该IP, 从而进一步提高代理IP的可用性.
      • 实现run方法, 用于启动Flask的WEB服务
      • 实现start的类方法, 用于通过类名, 启动服务
  • 完整代码

from flask import Flask
from flask import request
import json
from db.mongo_pool import MongoPool
import settings

class ProxyApi(object):
    def __init__(self):
        # 初始一个Flask的Web服务
        self.app = Flask(__name__)
        self.proxy_pool = MongoPool()

        @self.app.route('/random')
        def random():
            # 从传入参数中获取URL
            # 根据protocol参数获取协议
            protocol = request.args.get('protocol')
            # 根据domain参数获取域名
            domain = request.args.get('domain')

            proxy = self.proxy_pool.random(protocol=protocol, domain=domain, count=settings.AVAILABLE_IP_COUNT)

            # 如果有协议, 就返回带有协议代理IP和端口号
            if protocol:
                return '://:'.format(protocol, proxy.ip, proxy.port)
            else:
                # 如果没有协议就返回, 不带协议的IP和端口号
                return ':'.format(proxy.ip, proxy.port)

        @self.app.route('/proxies')
        def proxies():
            # 根据protocol参数获取协议
            protocol = request.args.get('protocol')
            # 根据domain参数获取域名
            domain = request.args.get('domain')

            proxies = self.proxy_pool.get_proxies(protocol=protocol, domain=domain, count=settings.AVAILABLE_IP_COUNT)
            lis = []
            for proxy in proxies:
                lis.append(proxy.__dict__)
            return json.dumps(lis)

        @self.app.route('/disable_domain')
        def disable_domain():
            # 获取IP地址
            ip = request.args.get('ip')
            # 获取不可用域名
            domain = request.args.get('domain')
            if ip is None:
                return '请传入ip参数'
            if domain is None:
                return '请传入domain参数'

            # 更新域名成功
            self.proxy_pool.disable_domain(ip=ip, domain=domain)
            return '该IP添加不可用域名成功'

    def run(self):
        self.app.run(host="0.0.0.0",port=6868)

    @classmethod
    def start(cls):
        proxy_api = cls()
        proxy_api.run()

if __name__ == '__main__':
    ProxyApi.start()
  • 小结:
    • 实现给爬虫提供高可用代理IP的接口
      1. 实现根据协议类型和域名, 提供随机的高可用代理IP的服务
      2. 实现根据协议类型和域名, 提供多个高可用代理IP的服务
      3. 实现给指定的IP上追加不可用域名的服务

以上是关于爬虫入门第10课:实现代理池的API模块的主要内容,如果未能解决你的问题,请参考以下文章

爬虫入门第9课:实现代理池的检测模块

爬虫入门第7课:实现代理池的数据库模块

爬虫入门第6课:实现代理池的校验模块

爬虫入门第2课:代理池的设计

爬虫入门第11课:实现代理池的启动入口

爬虫入门第3课:实现代理池思路