python 爬取http://pachong.org/中的代理ip和port

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 爬取http://pachong.org/中的代理ip和port相关的知识,希望对你有一定的参考价值。

#coding:utf-8

import re
import requests

url = 'http://pachong.org/high.html'
req = requests.get(url)

if req.status_code == 200:
    html = req.text
else:
    html = ''

# 匹配ip 和 端口对应 js
p = re.compile(r'''<tr data-id="\d+" data-type=\"high\">.*?<td.*?</td>.*?<td>(?P<ip>.*?)</td>.*?write\((?P<port>.*?)\);</script>''',re.S)

p2 = re.compile(r'var.*?;')

l1 = p.findall(html)
l2 = p2.findall(html)

l3 = []
for l in l2:
    temp = l.strip('var')
    temp = temp.strip()
    l3.append(temp)
for l in l3:
    exec(l)

# print l1

result = []
for l_t in l1:
    if isinstance(l_t[1],basestring):
        port_str = 'port=' + l_t[1]
        exec(port_str)
        t = (l_t[0],port)
        result.append(t)
    else:
        pass

print result

以上是关于python 爬取http://pachong.org/中的代理ip和port的主要内容,如果未能解决你的问题,请参考以下文章

python爬取猫眼代码没

怎么用python爬取一个网站的网页数量

python爬取MM图片

python怎么爬取数据

python怎么批量爬取需要点击才出现的内容资源?

如何利用python爬取某个地方1年的天气