python3爬虫第一天
Posted zhuhaibao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python3爬虫第一天相关的知识,希望对你有一定的参考价值。
1.目标:用python3爬取慕课网课程页的图片,然后保存到本地。
2。打开pycharm编写python代码。思路如下:
2.1 . 从urllib库里导入request模块。
2.2 用request模块下的urlopen方法打开网页获取一个http响应对象
2.3 响应对象调用.read()方法转换成字节流,类似与\\r\\n\\xe5\\x90\\x8e\\xe7\\xab\\xaf\\
2.4 提取字节流中的图片链接,用findall(r‘正则表达式‘,字节流),我用的正则findall(r‘src.+\\.jpg‘,realhtml)
2.5 把图片中的链接进行优化,加上‘http’
2.6 写个for循环,每次循环就新建一个文件,然后把url依次从图片链接表里拿出来,然后再调用
request.urlopen(url),req.read(),然后把读取的字节流放在图片里。代码如下
3.
4.在本地生成图片如下。
以上是关于python3爬虫第一天的主要内容,如果未能解决你的问题,请参考以下文章