python 爬虫 ip池怎么做

Posted 2023-04-25

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python 爬虫 ip池怎么做相关的知识，希望对你有一定的参考价值。

无论是爬取IP，都能在本地设计动态代理IP池。这样既方便使用，又可以提升工作效率。那么怎么在本地设计一个代理IP池呢？IPIDEA为大家简述本地代理IP池的设计和日常维护。
代理IP获取接口，如果是普通代理IP，使用ProxyGetter接口，从代理源网站抓取最新代理IP；如果是需耗费代理IP，一般都有提供获取IP的API，会有一定的限制，比如每次提取多少个，提取间隔多少秒。

代理IP数据库，用以存放在动态VPS上获取到的代理IP，建议选择SSDB。SSDB的性能很突出，与Redis基本相当了，Redis是内存型，容量问题是弱项，并且内存成本太高，SSDB针对这个弱点，使用硬盘存储，使用Google高性能的存储引擎LevelDB，适合大数据量处理并把性能优化到Redis级别。

代理IP检验计划，代理IP具备时效性，过有效期就会失效，因此需要去检验有效性。设置一个定时检验计划，检验代理IP有效性，删除无效IP、高延时IP，同时预警，当IP池里的IP少于某个阈值时，根据代理IP获取接口获取新的IP。

代理IP池外部接口除代理拨号服务器获取的代理IP池，还需要设计一个外部接口，通过这个接口调用IP池里的IP给爬虫使用。代理IP池功能比较简单，使用Flask就可以搞定。功能可以是给爬虫提供get/delete/refresh等接口，方便爬虫直接使用。参考技术A 自己做个代理服务器。例如618爬虫代理，再指向次一级代理。或者是直接让爬虫通过http proxy的参数设置去先把一个代理。代理池通常是租来的，或者是扫描出来的。扫描出来的往往大部分都不可用。爬虫的实现有几百种方案。通常建议直接从SCRAPY入手。参考技术B 扫描当前目前下所有的gz文件
currDir = os.getcwd()
files = os.listdir(currDir)
dstDir = "201301_09"
if not os.path.exists(dstDir):
os.mkdir(dstDir)
for fileName in files:
if os.path.isfile(fileName) and tarfile.is_tarfile(fileName):
print fileName
try:
tar = tarfile.open(file)#这里应该是fileName而不是file
names = tar.getnames()
for name in names:
tar.extract(name,path=dstDir)
tar.close()
except tarfile.ReadError:
print "not a tarFile"
pass本回答被提问者采纳参考技术C 如今，网络中有很多的爬虫工作者，那么大家知道如何维护爬虫ip池吗？下面就跟随小编一起来了解下吧：

一、自行购买IP地址，做代理池。
能利用各种云能换IP的api(弹性IP)，采用几个实例做出口，如果被封了就换IP，大概看看IP的价格吧，大概看一下IP的价格，这实在太不切实际，理论上这比上个便宜，但仍然很贵。

二、直购代理。
这些代理有扫描得来的，价格最便宜，但可用度低，需要自己核实，其次是自建机房拨出去的，这种IP质量还可以，最好的是家庭IP，通过家庭宽带产生的IP，这种IP与普通网民使用的IP一致，可用率高，不易被封。

三、销售代理网站。
一般，销售代理网站往往都会提供一些免费的代理在首页吸引流量，少则几十，多则几百，初步测试几个就可以用了。现在直接购买代理也需要验证，那不如直接抓取他们网站上提供的免费代理。确认入库后，使用时直接选择一台即可。

自办一个代理池其实并不难，怎么维护才是问题，很多人由于平时太忙而没有足够的时间对IP池进行维护，所以都是选择直接购买代理池。参考技术D 爬虫使用了代理了ip被封的原因有以下几点：
1、请求的频次太多
一般来说，爬虫工作者的任务量是很大的，有很多的爬虫工作者想要快速的完成任务就会在一定的时间内多次的请求，这样就会给目标服务器带来很大的压力，就很容易受到限制。
2、代理IP使用人数过多
当一个代理IP池中使用人数过多的时候也会存在被封的情况，比如，有许多人使用同一个代理IP来访问同一个网站，这样目标网站就会监测到，代理IP就会被限制。
3、代理IP不是高匿代理
不是高匿代理代理IP是指透明代理IP和普通代理IP，透明代理IP会暴露本机真实的IP地址，普通代理IP会暴露当前正在使用的代理IP，这两者代理IP都很容易被限制，而兔子IP则会隐藏真实的IP，躲过网站的反爬机制。

快速构建Python爬虫IP代理池服务

在公司做分布式深网爬虫，搭建了一套稳定的代理池服务，为上千个爬虫提供有效的代理，保证各个爬虫拿到的都是对应网站有效的代理IP，从而保证爬虫快速稳定的运行，当然在公司做的东西不能开源出来。不过呢，闲暇时间手痒，所以就想利用一些免费的资源搞一个简单的代理池服务。

1、问题

代理IP从何而来？

刚自学爬虫的时候没有代理IP就去西刺、快代理之类有免费代理的网站去爬，还是有个别代理能用。当然，如果你有更好的代理接口也可以自己接入。

免费代理的采集也很简单，无非就是：访问页面页面 —> 正则/xpath提取 —> 保存

如何保证代理质量？

可以肯定免费的代理IP大部分都是不能用的，不然别人为什么还提供付费的(不过事实是很多代理商的付费IP也不稳定，也有很多是不能用)。所以采集回来的代理IP不能直接使用，可以写检测程序不断的去用这些代理访问一个稳定的网站，看是否可以正常使用。这个过程可以使用多线程或异步的方式，因为检测代理是个很慢的过程。