爬虫实战1--抓取糗事百科段子

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫实战1--抓取糗事百科段子相关的知识,希望对你有一定的参考价值。

1.提取某一页的所有段子


# -*- coding:utf-8 -*-
import urllib
import urllib2
import re

page = 1
url = ‘http://www.qiushibaike.com/hot/page/‘ + str(page)
user_agent = ‘haha/4.0 (compatible; MSIE 5.5; Windows NT)‘
headers = { ‘User-Agent‘ : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    content = response.read().decode(‘utf-8‘)
    pattern=re.compile(‘h2>(.*?)</h2.*?<span>(.*?)</.*?number">(.*?)</.*?number">(.*?)<‘, re.S)
    items = re.findall(pattern,content)
    for item in items:
        print u"----------------------------------------\n发布人:%s内容:%s赞:%s\t评论数:%s\n"%(item[0],item[1],item[2],item[3])

except urllib2.URLError, e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason


以上是关于爬虫实战1--抓取糗事百科段子的主要内容,如果未能解决你的问题,请参考以下文章

芝麻HTTP:Python爬虫实战之爬取糗事百科段子

Python爬虫实战一之爬取糗事百科段子

Python爬虫爬取糗事百科段子内容

Python爬虫-爬取糗事百科段子

转 Python爬虫实战二之爬取百度贴吧帖子

Python爬虫实战二之爬取百度贴吧帖子