第一个python爬虫程序

Posted Ryan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第一个python爬虫程序相关的知识,希望对你有一定的参考价值。

1.安装Python环境

  官网https://www.python.org/下载与操作系统匹配的安装程序,安装并配置环境变量

2.IntelliJ Idea安装Python插件

  我用的idea,在工具中直接搜索插件并安装(百度)

3.安装beautifulSoup插件

  https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#attributes

4.爬虫程序:爬博客园的闪存内容

  

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
import time
import bs4

\'\'\'ing.cnblogs.com爬虫类\'\'\'
class CnBlogsSpider:

    url = "https://ing.cnblogs.com/ajax/ing/GetIngList?IngListType=All&PageIndex=${pageNo}&PageSize=30&Tag=&_="

    #获取html
    def getHtml(self):
        request = urllib2.Request(self.pageUrl)
        response = urllib2.urlopen(request)
        self.html = response.read()

    #解析html
    def analyze(self):
        self.getHtml()
        bSoup = bs4.BeautifulSoup(self.html)
        divs = bSoup.find_all("div",class_=\'ing-item\')
        for div in divs:
            img = div.find("img")[\'src\']
            item = div.find("div",class_=\'feed_body\')
            userName = item.find("a",class_=\'ing-author\').text
            text = item.find("span",class_=\'ing_body\').text
            pubtime = item.find("a",class_=\'ing_time\').text
            star = item.find("img",class_=\'ing-icon\') and True or False
            print \'( 头像: \',img,\'昵称: \',userName,\',闪存: \',text,\',时间: \',pubtime,\',星星: \',star,\')\'

    def run(self,page):
        pageNo = 1
        while (pageNo <= page):
            self.pageUrl = self.url.replace(\'${pageNo}\', str(pageNo))+str(int(time.time()))
            print \'-------------\\r\\n第 \',pageNo,\' 页的数据如下:\',self.pageUrl
            self.analyze()
            pageNo = pageNo + 1

CnBlogsSpider().run(3)

5.执行结果

以上是关于第一个python爬虫程序的主要内容,如果未能解决你的问题,请参考以下文章

scrapy主动退出爬虫的代码片段(python3)

python第一个爬虫。

用python零基础写爬虫--编写第一个网络爬虫

Python爬虫第一篇: 爬虫概述

怎么用python编写以下要求的程序?

爬虫学习 Python网络爬虫第三弹《爬取get请求的页面数据》