python3爬虫第一天

Posted zhuhaibao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python3爬虫第一天相关的知识,希望对你有一定的参考价值。

1.目标:用python3爬取慕课网课程页的图片,然后保存到本地。技术分享图片

       

      2。打开pycharm编写python代码。思路如下:

            2.1 . 从urllib库里导入request模块。

            2.2  用request模块下的urlopen方法打开网页获取一个http响应对象

            2.3 响应对象调用.read()方法转换成字节流,类似与\\r\\n\\xe5\\x90\\x8e\\xe7\\xab\\xaf\\

            2.4  提取字节流中的图片链接,用findall(r‘正则表达式‘,字节流),我用的正则findall(r‘src.+\\.jpg‘,realhtml)

            2.5 把图片中的链接进行优化,加上‘http’

            2.6 写个for循环,每次循环就新建一个文件,然后把url依次从图片链接表里拿出来,然后再调用

     request.urlopen(url),req.read(),然后把读取的字节流放在图片里。代码如下
3.

技术分享图片

  4.在本地生成图片如下。

技术分享图片

 

 


以上是关于python3爬虫第一天的主要内容,如果未能解决你的问题,请参考以下文章

scrapy主动退出爬虫的代码片段(python3)

python3第一天(基础语法)

学习python的第一天

python3下scrapy爬虫(第一卷:安装问题)

python3网络爬虫系统学习:第一讲 基本库urllib

Python爬虫零基础教学第一天