Python爬虫进阶——urllib模块使用案例淘宝

Posted WoLykos

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫进阶——urllib模块使用案例淘宝相关的知识,希望对你有一定的参考价值。


很多时候呢,我们都是读取本地HTML文件来进行爬虫练手,但每次都要手打不同的HTML明显耗时耗力;
还有些小伙伴不喜欢F12,偏偏喜欢在Pycharm中查看HTML的源代码;
……


难道每次都只能“复制——新建——粘贴——保存”一条龙服务吗?
不不不,我们还有Python的第三方库——urllib
urllib模块是模拟浏览器去访问URL地址,然后拿到服务器响应回来的数据,也就是整个HTML文件。

代码如下:

import urllib.request as ur

# urlopen返回的是一个HTTPResponse对象,需使用read方法。
ret = ur.urlopen('https://www.taobao.com/').read()
print(ret)
# 写入文件,'wb'为写入二进制文件
with open('tb.html', 'wb') as f:
    f.write(ret)

输出如下:

技术图片



为我心爱的女孩~~


以上是关于Python爬虫进阶——urllib模块使用案例淘宝的主要内容,如果未能解决你的问题,请参考以下文章

URL编码与解码(使用 Python3 urllib.parse) 与 贴吧小爬虫案例

python中urllib.request对象案例

简简单单的一篇小文章记录下urllib库的使用python爬虫入门进阶(02-2)

python爬虫Urllib库的基本使用

爬虫:urllib库文件的基础和进阶(python2.7)

Python爬虫3-----Urllib库的基本使用1