爬虫搭建动态代理池

Posted lyxdw

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫搭建动态代理池相关的知识,希望对你有一定的参考价值。

代理是什么?

代理实际上就是代理服务器, 代理服务器的工作机制很象我们生活中常常提及的代理商,假设你的机器为A机,你想获得的数据由B机提供,代理服务器为C机,那么具体的连接过程是这样的。 首先,A机需要B机的数据,它与C机建立连接,C机接收到A机的数据请求后,与B机建立连接,下载A机所请求的B机上的数据到本地,再将此数据发送至A机,完成代理任务。如图(图片有点丑):

 技术分享图片

为什么要使用代理?

我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,这种情况可以称为封IP。

 这时候代理的作用就来了, 你封我的ip,我用代理以后,使用代理ip来请求数据最后返回给我,你没辙了吧,哈哈!!废话不多说,进入正题!

动态代理ip

动态代理,顾名思义,会变化的ip。通过拨号vps来实现。

 VPS服务器,即VPS(VirtualPrivateServer虚拟专用服务器)技术,将部服务器分割成多个虚拟专享服务器的优质服务。每个VPS都可分配独立公网IP地址、独立操作系统、独立超大空间、独立内存、独立CPU资源、独立执行程序和独立系统配置等。用户除了可以分配多个虚拟主机及无限企业邮箱外,更具有独立服务器功能,可自行安装程序,单独重启服务器。通俗的来说,VPS服务器也就是虚拟的专用服务器,用户并接触不到物理上的机器,也不需要机器的物理硬件等设施负责维护等。

拨号vps服务器在vps服务器的基础原理 上添加了一个动态换IP的功能,行驶不定期更换用户的功能,常用与投票,刷单,批量注册微博,批量注册QQ等,所有你能想到使用IP的服务器,有很多人用这种功能抢手机抢票你能想到用IP赚钱的方式应该都是用的上。

拨号vps架设动态代理服务器

技术分享图片

在购买拨号vps的时候,选择预装centos7系统,这里还附带了拨号软件pppoe。(没有的话联系服务商装好)

下面来配置pppoe:

[[email protected] ~]# pppoe-setup     #进入配置
Welcome to the PPPoE client setup.  First, I will run some checks on
your system to make sure the PPPoE client is installed properly...


LOGIN NAME

Enter your Login Name (default root):     #输入宽带账号

INTERFACE

Enter the Ethernet interface connected to the PPPoE modem
For Solaris, this is likely to be something like /dev/hme0.
For Linux, it will be ethX, where X is a number.
(default eth0): #回车跳过就可以了,默认使用eth0网卡,ifconfig可以查看网卡信息

Do you want the link to come up on demand, or stay up continuously?
If you want it to come up on demand, enter the idle time in seconds
after which the link should be dropped.  If you want the link to
stay up permanently, enter no (two letters, lower-case.)
NOTE: Demand-activated links do not interact well with dynamic IP
addresses.  You may have some problems with demand-activated links.
Enter the demand value (default no): no  #这里询问的是,adsl连接以后,是否持续保持连接。或者是自动的断开,在指定的时间(以秒数计算)内。多数情况下,我们希望手动的打开关闭连接。所以这里选择默认的no。 

DNS

Please enter the IP address of your ISPs primary DNS server.
If your ISP claims that the server will provide dynamic DNS addresses,
enter server (all lower-case) here.
If you just press enter, I will assume you know what you are
doing and not modify your DNS setup.
Enter the DNS information here: #DNS设置,回车跳过

PASSWORD

Please enter your Password:     #输如宽带密码
Please re-enter your Password:     #再次输入

USERCTRL

Please enter yes (three letters, lower-case.) if you want to allow
normal user to start or stop DSL connection (default yes): yes  #是否允许普通用户启用/关闭 ADSL连接。默认是允许。

FIREWALLING

Please choose the firewall rules to use.  Note that these rules are
very basic.  You are strongly encouraged to use a more sophisticated
firewall setup; however, these will provide basic security.  If you
are running any servers on your machine, you must choose NONE and
set up firewalling yourself.  Otherwise, the firewall rules will deny
access to all standard servers like Web, e-mail, ftp, etc.  If you
are using SSH, the rules will block outgoing SSH connections which
allocate a privileged source port.

The firewall choices are:
0 - NONE: This script will not set any firewall rules.  You are responsible
          for ensuring the security of your machine.  You are STRONGLY
          recommended to use some kind of firewall rules.
1 - STANDALONE: Appropriate for a basic stand-alone web-surfing workstation
2 - MASQUERADE: Appropriate for a machine acting as an Internet gateway
                for a LAN
Choose a type of firewall (0-2): 0    #防火墙选项。这里提供的防火墙可以给你提供基本的安全保护。我不推荐你使用----你最好选择“NONE”选项0。无论是什么样的用户使用,我都建议你使用额外的工具来配置防火墙规则(iptables目前看来是一个非常不错的工具)。 
  
Start this connection at boot time

Do you want to start this connection at boot time?
Please enter no or yes (default no):yes    #是否在开机时,打开这个连接? 

** Summary of what you entered **

Ethernet Interface: eth0
User name:          123456
Activate-on-demand: No
DNS:                Do not adjust
Firewalling:        NONE
User Control:       yes
Accept these settings and adjust configuration files (y/n)? y  #所有的配置信息填写完成之后,系统将给出一个报告,完整的显示出你输入的配置信息。如果,你确信你输入的配置信息是正确的,输入yes写入配置文件。输入no放弃配置。 
Adjusting /etc/sysconfig/network-scripts/ifcfg-ppp0
Adjusting /etc/ppp/chap-secrets and /etc/ppp/pap-secrets
  (But first backing it up to /etc/ppp/chap-secrets.bak)
  (But first backing it up to /etc/ppp/pap-secrets.bak)



Congratulations, it should be all set up!

Type /sbin/ifup ppp0 to bring up your xDSL link and /sbin/ifdown ppp0
to bring it down.
Type /sbin/pppoe-status /etc/sysconfig/network-scripts/ifcfg-ppp0
to see the link status.

配置完成,

介绍三个命令:

  pppoe-start  拨号

  pppoe-stop  断开

  pppoe-status  查看拨号状态

[[email protected] ~]# pppoe-start
[[email protected] ~]# pppoe-status
pppoe-status: Link is up and running on interface ppp0
4: ppp0: <POINTOPOINT,MULTICAST,NOARP,UP,LOWER_UP> mtu 1480 qdisc pfifo_fast state UNKNOWN qlen 3
    link/ppp 
    inet xxx。xxx。xxx peer 1.1.1.1/32 scope global ppp0
       valid_lft forever preferred_lft forever

技术分享图片

红箭头所指的位置是ip。

来测试一下是否可以连通网络。

[[email protected] ~]# ping www.baidu.com
PING www.a.shifen.com (115.239.210.27) 56(84) bytes of data.
64 bytes from 115.239.210.27: icmp_seq=1 ttl=54 time=72.4 ms
64 bytes from 115.239.210.27: icmp_seq=2 ttl=54 time=70.4 ms
64 bytes from 115.239.210.27: icmp_seq=3 ttl=54 time=70.7 ms

ok,有网了。

代理选择使用TinyProxy。

yum安装:

[[email protected] ~]# yum -y install tinyproxy
Loaded plugins: fastestmirror
Loading mirror speeds from cached hostfile
* base: mirrors.163.com
* extras: mirrors.cn99.com
* updates: mirrors.163.com
No package tinyproxy available.
Error: Nothing to do

新系统上yum源需要自己配置,上面报错是因为镜像源没有这个包。

添加企业版 Linux 附加软件包(EPEL),企业版 Linux 附加软件包(以下简称 EPEL)是一个 Fedora 特别兴趣小组,用以创建、维护以及管理针对企业版 Linux 的一个高质量附加软件包集,面向的对象包括但不限于 红帽企业版 Linux (RHEL)、 CentOS、Scientific Linux (SL)、Oracle Linux (OL) 。(https://fedoraproject.org/wiki/EPEL/zh-cn)

centos系统安装并启用epel源:

yum install epel-release
[[email protected] ~]# yum install epel-release
Loaded plugins: fastestmirror
Loading mirror speeds from cached hostfile
 * base: mirrors.163.com
 * extras: mirrors.cn99.com
 * updates: mirrors.163.com
Resolving Dependencies
--> Running transaction check
---> Package epel-release.noarch 0:7-11 will be installed
--> Finished Dependency Resolution

Dependencies Resolved

=================================================================================================================================================================================================================
 Package                                                Arch                                             Version                                          Repository                                        Size
=================================================================================================================================================================================================================
Installing:
 epel-release                                           noarch                                           7-11                                             extras                                            15 k

Transaction Summary
=================================================================================================================================================================================================================
Install  1 Package

Total download size: 15 k
Installed size: 24 k
Is this ok [y/d/N]: y  #开始
Downloading packages:
epel-release-7-11.noarch.rpm                                                                                                                                                              |  15 kB  00:00:00     
Running transaction check
Running transaction test
Transaction test succeeded
Running transaction
  Installing : epel-release-7-11.noarch                                                                                                                                                                      1/1 
  Verifying  : epel-release-7-11.noarch                                                                                                                                                                      1/1 

Installed:
  epel-release.noarch 0:7-11                                                                                                                                                                                     

Complete!  

重新执行thinproxy安装命令:

技术分享图片

配置代理,访问源限制和端口设置。

[[email protected] ~]# vi /etc/tinyproxy/tinyproxy.conf

修改 Port 端口,默认为 8888

Port 8888

注释掉 Allow,表示允许所有人访问代理

#Allow 127.0.0.1

配置好了,启动tinyproxy。

tinyproxy  启动代理

killall tinyproxy  关闭所有端口(没有killall命令,安装yum install psmisc)

 

[[email protected] ~]# firewall-cmd --zone=public --add-port=8888/tcp --permanent  #设置防火墙允许8888端口通过
success  
[[email protected] ~]# firewall-cmd --reload  #重载防火墙配置
success

 

 

全部配置完毕,测试代理是否可用。pppoe-status查看ip,谷歌插件SwitchyOmega配置代理。

技术分享图片

 

 

 

 技术分享图片

选择配置好的代理,能正常访问表示代理服务器搭建成功。

Python操作pppoe更换ip

python3环境安装

yum  -y install wget  #安装wget下载
wget https://www.python.org/ftp/python/3.6.5/Python-3.6.5.tgz #下载

tar -xvf Python-3.6.5.tgz  #解压
cd Python-3.6.5  #进入文件夹
./configure prefix=/usr/local/python3  #配置编译地址
make && make install  #开始编译
ln -s /usr/local/python3/bin/python3  /usr/bin/python3  #配置软连接

技术分享图片

那顺便把pip3和redis(python操作redis模块)装了,下一步会用到python3操作redis。

yum install -y python34-setuptools
easy_install-3.4 pip
pip3 install redis

技术分享图片

 

 

import os
#切换IP,重启代理服务 def changeIP(): os.system(‘pppoe-stop‘) #断开 time.sleep(2) os.popen(‘pppoe-start‘) #等待2s重拨 time.sleep(8) os.popen(‘service tinyproxy restart‘) #等待重拨完毕,重启代理服务 #取出当前IP def extractIP(): infor = os.popen(‘pppoe-status‘).read() #读取代理 ip = re.search(‘(d+.d+.d+.d+)‘,infor).group(1) #正则匹配ip print(ip) return ip  

搭建代理池(redis)

下载安装包

wget http://download.redis.io/releases/redis-4.0.2.tar.gz

解压安装包并安装

tar xzf redis-4.0.2.tar.gz

cd redis-4.0.2

make

make install

启动redis

redis-server

技术分享图片

python操作redis写入ip

import re,time,os,datetime,redis

#获取时间
def getTime():
    numtime = datetime.datetime.now().strftime(‘%Y-%m-%d %H-%M-%S---‘)
    return numtime


#切换IP,重启代理服务
def changeIP():
    os.system(‘pppoe-stop‘)
    time.sleep(2)
    os.popen(‘pppoe-start‘)
    time.sleep(8)
    os.popen(‘service tinyproxy restart‘)


#取出当前IP
def extractIP():
    infor = os.popen(‘pppoe-status‘).read()
    try:
        ip = re.search(‘(d+.d+.d+.d+)‘,infor).group(1)
        print(ip)
        return ip
    except Exception as e:
        log_list.append(getTime()+‘提取IP错误:‘+str(e))
        return False
#
#删除ip   对应键ip1
def updateDel():
    r = redis.Redis(host=‘‘, port=6379, db=0, decode_responses=True, password=‘‘)
    r.delete(‘ip1‘)
#重新写入ip   对应键ip1
def updatePut(ip):
    print("更新ip")
    r = redis.Redis(host=‘‘, port=6379, db=0, decode_responses=True, password=‘‘)
    r.set(‘ip1‘,ip+‘:8888‘)
    print("更新完毕")

if __name__ == ‘__main__‘:
    #删除ip后20s重拨
    state = updateDel()
    time.sleep(20)
    os.popen(‘killall tinyproxy‘)
    #重新连接
    changeIP()
    #取出当前IP
    ip = extractIP()
    if ip:
        updatePut(ip)

redis用的键值对,也可以用表写入,提取ip更方便。

技术分享图片

 

这里的意思是删除数据库中的ip后20s后重拨,保证已经提取出去的ip有20s的响应时间来跑爬虫。

crontab设置定时任务

crontab -e

0 */1 * * * python3 /root/zhaozhi/IP.py &   1小时执行一次(测试好ip可用时间,自行更改)

 

 

多部署几个代理服务器,保证切换ip的断层会有ip可以提取。

 

温馨提示

  • 如果您对本文有疑问,请在评论部分留言,我会在最短时间回复。
  • 如果本文帮助了您,也请评论关注,作为对我的一份鼓励。
  • 如果您感觉我写的有问题,也请批评指正,我会尽量修改。
  • 本文为原创,转载请注明出处。
  • 本文所有代码仅供学习参考,在爬取的同时考虑对方的服务器承受能力,适可而止。

 

 

以上是关于爬虫搭建动态代理池的主要内容,如果未能解决你的问题,请参考以下文章

python 爬虫 ip池怎么做

如何使用Python实现爬虫代理IP池

Python爬虫实战-基于代理池的高并发爬虫

Python3爬虫教你怎么利用免费代理搭建代理池

scrapy按顺序启动多个爬虫代码片段(python3)

Python爬虫伪装,请求头User-Agent池,和代理IP池搭建使用