python爬虫抓取豆瓣电影
Posted 御心飞行
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫抓取豆瓣电影相关的知识,希望对你有一定的参考价值。
抓取电影名称以及评分,并排序(代码丑炸)
1 import urllib 2 import re 3 from bs4 import BeautifulSoup 4 def get(p): 5 t=0 6 k=1 7 n=1 8 book_score=[] 9 book_a=[] 10 while t<=p: 11 print "正在获取第%d页..."%k 12 k=k+1 13 url="https://movie.douban.com/tag/%s?start=%d&type=T"%(‘%E5%8A%A8%E7%94%BB‘,t) 14 res = urllib.urlopen(url) 15 soup = BeautifulSoup(res.read(),"html.parser") 16 book_div = soup.find(attrs={"class":"article"}) 17 book_score.extend(book_div.findAll(attrs={‘class‘:‘rating_nums‘})) 18 book_a.extend(book_div.findAll(attrs={"style":"font-size:12px;"})) 19 t=t+20 20 return book_score,book_a 21 22 p=input("输入页数") 23 a,b=get((p-1)*20) 24 t=0 25 y=[] 26 x=[] 27 for i in a: 28 y.append((i.string)) 29 for i in b: 30 x.append(i) 31 u=min(len(x),len(y)) 32 for i in range(u): 33 for j in range(i+1,u): 34 if(y[i]<y[j]): 35 t=y[j] 36 y[j]=y[i] 37 y[i]=t 38 t=x[j] 39 x[j]=x[i] 40 x[i]=t 41 42 for i in range(u): 43 print y[i],x[i].string
爬取结果:
输入页数2
正在获取第1页...
正在获取第2页...
9.3 瓦力(台) / 太空奇兵·威E(港)
9.2 神隐少女(台) / Spirited Away
9.2 优兽大都会(港) / 动物方城市(台)
9.0 Tenkû no shiro Rapyuta / Laputa: Castle in the Sky
8.9 冲天救兵(港) / 天外奇迹(台)
8.8 狮子王3D
8.8 古鲁家族(港/台) / 克鲁德一家
8.8 萤火之社 / Hotarubi no mori e
8.8 呼啸山城 / 霍尔的移动城堡
8.8 海洋幻想曲(台) / Le Chant de la Mer
8.8 甲铁城的卡巴内里 / 甲铁城的尸人
8.8 魔法公主 / 幽灵少女
8.7 破坏王拉尔夫 / 破坏王大冒险
8.7 借物少女艾莉缇(台) / 借东西的小矮人亚莉亚蒂(港)
8.7 驯龙记(港)
8.7 玩转脑朋友(港) / 脑筋急转弯(台)
8.6 怪兽公司(港) / 怪物公司
8.6 大英雄联盟(港) / 大英雄天团(台)
8.5 卑鄙的我 / 坏蛋奖门人(港)
8.5 秒速五厘米 / 秒速5公分
8.5 我叫坂本我最屌
8.4 小羊肖恩大电影 / 超级无敌羊咩咩大电影之咩最劲(港)
8.4 月亮守护者
8.4 冰河世纪 / 冰原历险记
8.3 魔雪奇缘(港) / 冰雪大冒险
8.3 大圣归来 / 猴王
8.2 海底奇兵 / 寻找尼莫
8.1 卑鄙的我2 / 坏蛋奖门人2(港)
8.1 The Little Prince
8.0 怪兽电力公司2:怪兽大学 / 怪物公司2:怪物大学
8.0 熊猫阿宝2 / 阿宝正传2
7.9 与森林共舞(台) / 丛林之书
7.9 熊猫阿宝 / 阿宝正传
7.8 熊猫阿宝3 / 阿宝正传3
7.7 怪物的孩子(台) / Bakemono no Ko
7.5 尖叫旅社2(台) / 鬼灵精怪大酒店2(港)
7.3 小黄人 / 迷你兵团(港)
7.2 愤怒鸟大电影(港) / 愤怒鸟玩电影(台)
7.1 恐龙大时代(港) / 美好的恐龙世界
以上是关于python爬虫抓取豆瓣电影的主要内容,如果未能解决你的问题,请参考以下文章