Python爬虫初学-urllib3

Posted 齐妙非凡

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫初学-urllib3相关的知识,希望对你有一定的参考价值。

学习爬虫中,从最近自己写的爬虫小程序中抓截一点代码。加深下记忆。

1.因为我已经安装了Python3,所以使用了urllib3库。

2.要根据对应网页的数据格式进行解码,有的是utf-8,有的是GB2312,当然可能还有其它。否则会报错。


import urllib3
import time

#因为我使用了Python3,所以使用urllib3库
http = urllib3.PoolManager()
response=http.request(\'GET\',\'https://www.cnblogs.com/\') 
http_data = response.data.decode(\'utf-8\') #GB2312

#在抓取的网页数据中查找匹配的数据
User = "齐妙非凡"
if (http_data.find(User,0,len(http_data)) != -1):
    print("找到【%s】的随笔!"%User)
else:
    print("找不到【%s】的随笔!"%User)

#建立文件,保存每次抓取到的网页的内容
data_filename=r\'LOG\\%s_data.log\'%(time.strftime(\'%Y%m%d%H%M%S\'))
web_data = open(data_filename,\'w\',encoding=\'utf-8\')
web_data.write(http_data)
web_data.close()

以上是关于Python爬虫初学-urllib3的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫编程思想(17):使用urllib3发送HTTP Get和HTTP POST请求

Python爬虫必备技术栈urllib库&&urllib3库

Python爬虫编程思想(19):使用urllib3上传文件与处理超时

Python爬虫技术栈 | urllib库&&urllib3库

Python爬虫技术栈 | urllib库&&urllib3库

Python爬虫技术栈 | urllib库&&urllib3库