python抓取数据，python使用socks代理抓取数据

Posted 2020-10-06

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python抓取数据，python使用socks代理抓取数据相关的知识，希望对你有一定的参考价值。

　　在python中，正常的抓取数据直接使用urllib2 这个模块：

import urllib2
url = ‘http://fanyi.baidu.com/‘
stream = urllib2.urlopen(url)
cont = stream.read()
print cont

　　如果要走http代理的话，我们也可以使用urllib2，不需要引用别的模块：

import urllib2
url = ‘https://clients5.google.com/pagead/drt/dn/dn.js‘
proxy_handler = urllib2.ProxyHandler({‘http‘:‘127.0.0.1:1080‘})
opener = urllib2.build_opener(proxy_handler)
f = opener.open(url)
print f.read()

　　如果要使用socks5代理，我们需要别的模块 sockes， socket，我们可以通过pip install socksipy ，（我是windows的系统，还需要另外的一个模块， pip install win_inet_pton）建议直接下载安装包到python的安装目录，切换到对应目录，执行python setup.py install安装，真被大天朝的墙给坑死了，然后在需要代理的模块上添加socket代码：

import socks
import socket
socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS5, "127.0.0.1", 1080)
socket.socket = socks.socksocket

　　完整的代码如下：

//添加的代码开头
import win_inet_pton
import socks
import socket
socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS5, "127.0.0.1", 1080)
socket.socket = socks.socksocket
//添加的代码结束
import urllib2
steam = urllib2.urlopen(‘https://clients5.google.com/pagead/drt/dn/dn.js‘)
print steam.read()

　　使用requests模块，我们也在requests之前添加socket的代码，后面的http请求不用改了，还是走原来的逻辑：

//添加的代码开头
import win_inet_pton
import socket
import socks
import requests
ip=‘localhost‘
port = 1080
socks.setdefaultproxy(socks.PROXY_TYPE_SOCKS5, ip, port)
socket.socket = socks.socksocket
//添加的代码结束
url = ‘https://clients5.google.com/pagead/drt/dn/dn.js‘
print requests.get(url).text

技术分享作者： NONO
出处：http://www.cnblogs.com/diligenceday/
企业网站：http://www.idrwl.com/ 厦门点燃未来网络科技
开源博客：http://www.github.com/sqqihao
QQ：287101329
微信：18101055830

厦门点燃未来网络科技有限公司，是厦门最好的微信应用，小程序，微信网站，公众号开发公司

以上是关于python抓取数据，python使用socks代理抓取数据的主要内容，如果未能解决你的问题，请参考以下文章

python抓取pc不联网软件数据

如何用python抓取百度地图数据

Python使用代理的方法

使用 python 和 sqlite 进行网页抓取。如何有效存储抓取的数据？

如何用Python爬虫抓取网页内容?

如何用python抓取js生成的数据