基本爬虫

Posted nevermore29

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基本爬虫相关的知识,希望对你有一定的参考价值。

 

代码:

#-*- coding: UTF-8 -*-
import requests
import os
from bs4 import BeautifulSoup
import urllib
start_url = ‘http://www.521609.com/meinvxiaohua/‘
headers = {‘user-agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/68.0.3440.106 Safari/537.36‘}
saved_path = r‘C:UserszhoutiaxDesktopxiaohua‘
x=1


def crawl(url):
   # req = urllib2.Request(url, headers=headers)
   # content = urllib2.urlopen(req, timeout=20).read()
   content = requests.get(url).text
   soup = BeautifulSoup(content, "html.parser")
   img_urls = soup.find_all("img")
   global x
   if not os.path.exists(saved_path):
      os.makedirs(saved_path)
   for img_url in img_urls:
      # print img_url[‘src‘]
      if img_url[‘src‘].startswith(‘/uploads‘):
         img = url.split(‘/m‘)[0] + img_url[‘src‘]
         urllib.urlretrieve(img, r‘C:UserszhoutiaxDesktopxiaohua\%d.jpg‘ % x)
         x += 1
      else:
         exit


if __name__ == ‘__main__‘:
   for page in range(1, 5):  # 多页
      page_url = start_url + "list12%d.html" % page
      print page_url
      crawl(page_url)

  

 

以上是关于基本爬虫的主要内容,如果未能解决你的问题,请参考以下文章

NIH周三讲座视频爬虫

Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段

c_cpp Robolution基本代码片段

html PHP代码片段: - AJAX基本示例:此代码演示了使用PHP和JavaScript实现的基本AJAX功能。

Python爬虫爬虫的基本原理

爬虫从入门到放弃——爬虫的基本原理