我的第一个的python抓取 单页面爬虫

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我的第一个的python抓取 单页面爬虫相关的知识,希望对你有一定的参考价值。

爬取豆瓣推荐书籍页的图书的图片保存到本地

# -*- coding UTF-8 -*- 

import re
import requests
import os

def getsite(url):
    website=requests.get(url)

url="https://book.douban.com/tag/%E7%BC%96%E7%A8%8B"
website=requests.get(url)

links=re.findall("(https:\/\/img3.doubanio.com\/mpic\/(\w+\.jpg))",website.text)

dir="test/"
if not os.path.exists(dir):
    os.makedirs(dir)
count=0
for link,name in links:
    with open(dir+name,‘wb‘) as img:
        file=requests.get(link)
        img.write(file.content)
        img.close()
        count+=1
        print("已抓取%s张图片"%(count))

以上是关于我的第一个的python抓取 单页面爬虫的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫编程思想(37):项目实战:抓取猫眼电影Top100榜单

如何更好地循环进入我的网络爬虫?

[Python爬虫] 之九:Selenium +phantomjs抓取活动行中会议活动(单线程抓取)

反爬虫2-python3.6 正则表达式抓取猫眼电影TOP100

python 爬虫加入线程池问题

大佬带你用 python爬虫获取指定网站所有连接下图片单线程