2023爬虫学习笔记 -- 使用代理爬取数据

Posted web安全工具库

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2023爬虫学习笔记 -- 使用代理爬取数据相关的知识,希望对你有一定的参考价值。

一、正常访问网页,获取本地访问的地址

二、通过代码实现

1、目标地址及头信息

目标地址="http://202XXXX.com/"
头=
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/86.0.4240.198 Safari/537.36"

2、获取目标地址网页源码

响应内容 = requests.get(url=目标地址, headers=头)
响应内容.encoding="utf-8"
编码后的内容=响应内容.text
#print(编码后的内容)

3、通过源码解析出本地地址

数据解析=etree.HTML(编码后的内容)
数据列表=数据解析.xpath('/html/body/p[1]/a[1]/text()')
print(数据列表)

4、运行结果

三、利用代理访问网页,在请求代码出添加一个proxies信息

响应内容 = requests.get(url=目标地址, headers=头,proxies='http':'58.20.235.231:9002')

四、测试源代码

目标地址="http://2023.XXX.com/"
头=
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"

响应内容 = requests.get(url=目标地址, headers=头,proxies='http':'58.20.235.231:9002')
响应内容.encoding="utf-8"
编码后的内容=响应内容.text
#print(编码后的内容)
数据解析=etree.HTML(编码后的内容)
数据列表=数据解析.xpath('/html/body/p[1]/a[1]/text()')
print(数据列表)

五、运行结果

以上是关于2023爬虫学习笔记 -- 使用代理爬取数据的主要内容,如果未能解决你的问题,请参考以下文章

2023爬虫学习笔记 -- 批量爬取图片

2023爬虫学习笔记 -- 某简历模板的爬取过程

2023爬虫学习笔记 -- 多线程操作

2023爬虫学习笔记 -- 批量获取免费代理

神箭手爬虫学习笔记

python爬虫-爬取盗墓笔记