python爬虫抓取豆瓣电影

Posted 御心飞行

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫抓取豆瓣电影相关的知识,希望对你有一定的参考价值。

抓取电影名称以及评分,并排序(代码丑炸)

 1 import urllib
 2 import re
 3 from bs4 import BeautifulSoup
 4 def get(p):
 5     t=0
 6     k=1
 7     n=1
 8     book_score=[]
 9     book_a=[]
10     while t<=p:
11         print "正在获取第%d页..."%k
12         k=k+1
13         url="https://movie.douban.com/tag/%s?start=%d&type=T"%(%E5%8A%A8%E7%94%BB,t)
14         res = urllib.urlopen(url)
15         soup = BeautifulSoup(res.read(),"html.parser")
16         book_div = soup.find(attrs={"class":"article"})
17         book_score.extend(book_div.findAll(attrs={class:rating_nums}))
18         book_a.extend(book_div.findAll(attrs={"style":"font-size:12px;"}))
19         t=t+20
20     return book_score,book_a
21 
22 p=input("输入页数")
23 a,b=get((p-1)*20)
24 t=0
25 y=[]
26 x=[]
27 for i in a:
28     y.append((i.string))
29 for i in b:
30     x.append(i)
31 u=min(len(x),len(y))
32 for i in range(u):
33     for j in range(i+1,u):
34         if(y[i]<y[j]):
35             t=y[j]
36             y[j]=y[i]
37             y[i]=t
38             t=x[j]
39             x[j]=x[i]
40             x[i]=t
41             
42 for i in range(u):
43     print y[i],x[i].string

爬取结果:

输入页数2
正在获取第1页...
正在获取第2页...
9.3 瓦力(台) / 太空奇兵·威E(港)
9.2 神隐少女(台) / Spirited Away
9.2 优兽大都会(港) / 动物方城市(台)
9.0 Tenkû no shiro Rapyuta / Laputa: Castle in the Sky
8.9 冲天救兵(港) / 天外奇迹(台)
8.8 狮子王3D
8.8 古鲁家族(港/台) / 克鲁德一家
8.8 萤火之社 / Hotarubi no mori e
8.8 呼啸山城 / 霍尔的移动城堡
8.8 海洋幻想曲(台) / Le Chant de la Mer
8.8 甲铁城的卡巴内里 / 甲铁城的尸人
8.8 魔法公主 / 幽灵少女
8.7 破坏王拉尔夫 / 破坏王大冒险
8.7 借物少女艾莉缇(台) / 借东西的小矮人亚莉亚蒂(港)
8.7 驯龙记(港)
8.7 玩转脑朋友(港) / 脑筋急转弯(台)
8.6 怪兽公司(港) / 怪物公司
8.6 大英雄联盟(港) / 大英雄天团(台)
8.5 卑鄙的我 / 坏蛋奖门人(港)
8.5 秒速五厘米 / 秒速5公分
8.5 我叫坂本我最屌
8.4 小羊肖恩大电影 / 超级无敌羊咩咩大电影之咩最劲(港)
8.4 月亮守护者
8.4 冰河世纪 / 冰原历险记
8.3 魔雪奇缘(港) / 冰雪大冒险
8.3 大圣归来 / 猴王
8.2 海底奇兵 / 寻找尼莫
8.1 卑鄙的我2 / 坏蛋奖门人2(港)
8.1 The Little Prince
8.0 怪兽电力公司2:怪兽大学 / 怪物公司2:怪物大学
8.0 熊猫阿宝2 / 阿宝正传2
7.9 与森林共舞(台) / 丛林之书
7.9 熊猫阿宝 / 阿宝正传
7.8 熊猫阿宝3 / 阿宝正传3
7.7 怪物的孩子(台) / Bakemono no Ko
7.5 尖叫旅社2(台) / 鬼灵精怪大酒店2(港)
7.3 小黄人 / 迷你兵团(港)
7.2 愤怒鸟大电影(港) / 愤怒鸟玩电影(台)
7.1 恐龙大时代(港) / 美好的恐龙世界

以上是关于python爬虫抓取豆瓣电影的主要内容,如果未能解决你的问题,请参考以下文章

python爬虫抓取豆瓣电影

Python小爬虫——抓取豆瓣电影Top250数据

Python开发简单爬虫之静态网页抓取篇:爬取“豆瓣电影 Top 250”电影数据

python怎么抓取豆瓣电影url

python爬取豆瓣电影首页超链接

Java豆瓣电影爬虫——抓取电影详情和电影短评数据