Python爬虫2------爬虫屏蔽手段之代理服务器实战

Posted 咫片炫

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫2------爬虫屏蔽手段之代理服务器实战相关的知识,希望对你有一定的参考价值。

 

 

1、代理服务器:

一个处于客户端与互联网中间的服务器,如果使用代理服务器,当我们浏览信息的时候,先向代理服务器发出请求,然后由代理服务器向互联网获取信息,再返回给我们。

 

2、代码:

import urllib.request
#proxy_addr="117.36.103.170:8118",为代理服务器的IP和端口
#url为要爬取数据的地址
def use_proxy(url,proxy_addr):
    #采用ProxyHandler函数来设置代理服务器,函数参数为字典,字典的键为"http",值为代理服务器的IP地址,IP地址和端口可以在www.xicidaili.com中找。
    proxy=urllib.request.ProxyHandler({"http":proxy_addr})
    #建立opener,bulid_opener的第一个参数为proxy,第二个参数固定为urllib.request.HTTPHandler
    opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    #将opener设置为全局,下面的操作就可以运用该opener了。
    urllib.request.install_opener(opener)
    data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
    return data

proxy_addr="125.118.79.44:6666"
url="http://www.baidu.com"
data=use_proxy(url,proxy_addr)
print(len(data))

 

以上是关于Python爬虫2------爬虫屏蔽手段之代理服务器实战的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫之ip代理池

java爬虫系列第五讲-如何使用代理防止爬虫被屏蔽?

写Python爬虫又被屏蔽了,你现在需要一个稳定的代理IP

Python爬虫连载5-ProxyCookie解析

如何处理python爬虫ip被封

python网络爬虫进阶之HTTP原理,爬虫的基本原理,Cookies和代理介绍