python 爬取http://pachong.org/中的代理ip和port
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 爬取http://pachong.org/中的代理ip和port相关的知识,希望对你有一定的参考价值。
#coding:utf-8
import re
import requests
url = 'http://pachong.org/high.html'
req = requests.get(url)
if req.status_code == 200:
html = req.text
else:
html = ''
# 匹配ip 和 端口对应 js
p = re.compile(r'''<tr data-id="\d+" data-type=\"high\">.*?<td.*?</td>.*?<td>(?P<ip>.*?)</td>.*?write\((?P<port>.*?)\);</script>''',re.S)
p2 = re.compile(r'var.*?;')
l1 = p.findall(html)
l2 = p2.findall(html)
l3 = []
for l in l2:
temp = l.strip('var')
temp = temp.strip()
l3.append(temp)
for l in l3:
exec(l)
# print l1
result = []
for l_t in l1:
if isinstance(l_t[1],basestring):
port_str = 'port=' + l_t[1]
exec(port_str)
t = (l_t[0],port)
result.append(t)
else:
pass
print result
以上是关于python 爬取http://pachong.org/中的代理ip和port的主要内容,如果未能解决你的问题,请参考以下文章
python爬取猫眼代码没
怎么用python爬取一个网站的网页数量
python爬取MM图片
python怎么爬取数据
python怎么批量爬取需要点击才出现的内容资源?
如何利用python爬取某个地方1年的天气