Python爬虫学习

Posted mrgaoyi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫学习相关的知识,希望对你有一定的参考价值。

接触python不久,也在慕课网学习了一些python相关基础,对于爬虫初步认为是依靠一系列正则获取目标内容数据

于是参照着慕课网上的教学视频,完成了我的第一个python爬虫,鸡冻 >_<

# !/usr/bin/env python
# -*- coding: UTF-8 -*-
# addUser: Gao
# addTime: 2018-01-27 23:06
# description: python爬虫练习

import urllib2, re, os

# 获取目标网址
TargetUrl = ‘https://www.imooc.com/course/list‘

# 获取数据保存路径
FileName = ‘Download‘

"""
保存图片
"""
def saveImg(imgUrl, imgName=‘img.jpg‘):
    # 图片路径
    imgPath = os.path.join(FileName, imgName)

    # 获取路径下图片信息
    req = urllib2.urlopen(imgUrl)
    buf = req.read()

    # 写入文件
    with open(imgPath, ‘wb+‘) as f:
        f.write(buf)


"""
判断文件夹是否存在
"""
if not os.path.exists(os.path.join(os.getcwd(), FileName)):
    # 新建文件夹
    os.mkdir(os.path.join(os.getcwd(), FileName))


# 获取目标网址内容
result = urllib2.urlopen(TargetUrl)
urlData = result.read()

# 正则匹配获取图片地址
imgList = re.findall(r‘src="(.+?\.jpg)‘, urlData)

"""
循环保存图片
"""
i = 0
for imgUrl in imgList:
    saveImg(‘https:‘+imgUrl, ‘python_‘+str(i)+‘.jpg‘)
    i += 1

  

以上是关于Python爬虫学习的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫学习笔记-M3U8流视频数据爬虫

学习《从零开始学Python网络爬虫》PDF+源代码+《精通Scrapy网络爬虫》PDF

python 机器学习有用的代码片段

Python爬虫学习记录内附代码详细步骤

学习笔记:python3,代码片段(2017)

Python网络爬虫学习手记——爬虫基础