到豆瓣爬取电影信息

Posted 戴帽子的小孩

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了到豆瓣爬取电影信息相关的知识,希望对你有一定的参考价值。

初学puthon爬虫,于是自己怕了豆瓣以电影信息,直接上源码

import re
import requests
from bs4 import BeautifulSoup
import urllib
import os

class movie:

    def __init__(self):
        self.url="https://movie.douban.com/subject/25933890/?tag=%E7%83%AD%E9%97%A8&from=gaia_video"
        self.head={
            \'User-Agent\': \'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/55.0.2883.87 Safari/537.36\',
                 }


    def getpag(self):
        req=requests.get(self.url,self.head)
        html=req.content
        html=html.decode(\'utf-8\')
        return html

    def gettit(self,page):
        title = r\'<span property="v:itemreviewed">(.+?)</span>\'
        power = r\'<strong class="ll rating_num" property="v:average">(.+?)</strong>\'
        tit = re.findall(title, page)
        powe = re.findall(power,page)
        tit = str(tit)
        print(tit, \'\\n\')
        print("豆瓣评分:", powe, \'\\n\')
    def getinfo(self,page):
        soup = BeautifulSoup(page, "lxml")
        infor = soup.find_all(\'div\', \'info\')
        for info in infor:
            print(info.get_text())
    def getping(self,page):
        soup = BeautifulSoup(page, "lxml")
        ping = soup.find_all(\'div\', \'comment\')
        for pin in ping:
            pname=pin.fin
            pn=pname.find_all(\'a\').d_all(\'span\',class_=\'comment-info\')
            for pnam in pname:
                for p in pn:
                    print(p.get_text())
                    arg=pin.find_all(\'p\')
                    for ar in arg:
                         print(ar.get_text())

    def start(self):
        page=self.getpag()
        self.gettit(page)
        self.getinfo(page)
        self.getping(page)
movie().start()

爬取成功

我利用的是BeautifulSoup设个库,这个库将可以将heml代码进行按标签进行分类整理,还可以读取标签属性,详情可以自己搜索,对于爬虫来说非常强大

我的代码理念理念是利用BeautifulSoup,利用for循环一层一层的往下搜索找到自己想要的数据

以上是关于到豆瓣爬取电影信息的主要内容,如果未能解决你的问题,请参考以下文章

团队-爬取豆瓣电影TOP250-需求分析

python爬取豆瓣电影Top250(附完整源代码)

团队-Python 爬取豆瓣电影top250-需求分析

python爬虫入门爬取豆瓣电影top250

团队-张文然-需求分析-python爬虫分类爬取豆瓣电影信息

03_使用scrapy框架爬取豆瓣电影TOP250