团队-爬取豆瓣电影top250-模块开发过程
Posted nothingisimpossible
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了团队-爬取豆瓣电影top250-模块开发过程相关的知识,希望对你有一定的参考价值。
项目托管平台地址:https://gitee.com/nothingbigger/DouBantop250
开发模块功能:
完善爬取功能、补全获取数据的漏洞,开发时间:1天
#!/usr/bin/python #-*- coding: utf-8 -*- import sys reload(sys) sys.setdefaultencoding(‘utf8‘) from bs4 import BeautifulSoup import re import urllib2 import xlwt #得到页面全部内容 def askURL(url): request = urllib2.Request(url)#发送请求 try: response = urllib2.urlopen(request)#取得响应 html= response.read()#获取网页内容 #print html except urllib2.URLError, e: if hasattr(e,"code"): print e.code if hasattr(e,"reason"): print e.reason return html #获取相关内容 def getData(baseurl): findLink=re.compile(r‘<a href="(.*?)">‘)#找到影片详情链接 findImgSrc=re.compile(r‘<img.*src="(.*jpg)"‘,re.S)#找到影片图片 findTitle=re.compile(r‘<span class="title">(.*)</span>‘)#找到片名 #找到评分 findRating=re.compile(r‘<span class="rating_num" property="v:average">(.*)</span>‘) #找到评价人数 findJudge=re.compile(r‘<span>(\d*)人评价</span>‘) #找到概况 findInq=re.compile(r‘<span class="inq">(.*)</span>‘) #找到影片相关内容:导演,主演,年份,地区,类别 findBd=re.compile(r‘<p class="">(.*?)</p>‘,re.S) #去掉无关内容 remove=re.compile(r‘ |\n|</br>|\.*‘) datalist=[] for i in range(0,10): url=baseurl+str(i*25) html=askURL(url) soup = BeautifulSoup(html) for item in soup.find_all(‘div‘,class_=‘item‘):#找到每一个影片项 data=[] item=str(item)#转换成字符串 #print item link=re.findall(findLink,item)[0] data.append(link)#添加详情链接 imgSrc=re.findall(findImgSrc,item)[0] data.append(imgSrc)#添加图片链接 titles=re.findall(findTitle,item) #片名可能只有一个中文名,没有外国名 if(len(titles)==2): ctitle=titles[0] data.append(ctitle)#添加中文片名 otitle=titles[1].replace(" / ","")#去掉无关符号 data.append(otitle)#添加外国片名 else: data.append(titles[0])#添加中文片名 data.append(‘ ‘)#留空 rating=re.findall(findRating,item)[0] data.append(rating)#添加评分 judgeNum=re.findall(findJudge,item)[0] data.append(judgeNum)#添加评论人数 inq=re.findall(findInq,item) #可能没有概况 if len(inq)!=0: inq=inq[0].replace("。","")#去掉句号 data.append(inq)#添加概况 else: data.append(‘ ‘)#留空 bd=re.findall(findBd,item)[0] bd=re.sub(remove,"",bd) bd=re.sub(‘<br>‘," ",bd)#去掉<br> bd=re.sub(‘/‘," ",bd)#替换/ #data.append(bd) words=bd.split(" ") for s in words: if len(s)!=0 and s!=‘ ‘:#去掉空白内容 data.append(s) #主演有可能因为导演内容太长而没有 if(len(data)!=12): data.insert(8,‘ ‘)#留空 datalist.append(data) return datalist
遇到的问题及问题解决方法:
主要去发现别人开发模块时程序存在的的漏洞,并且予以纠正
其他补充说明:
无
以上是关于团队-爬取豆瓣电影top250-模块开发过程的主要内容,如果未能解决你的问题,请参考以下文章