用pyquery 初步改写崔庆才的 抓取猫眼电影排行(正在更新)特意置顶,提醒自己更新

Posted weixu-liu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用pyquery 初步改写崔庆才的 抓取猫眼电影排行(正在更新)特意置顶,提醒自己更新相关的知识,希望对你有一定的参考价值。

 

目前正在学Python爬虫,正在读崔庆才的《Python3网络爬虫开发实战》,之前学习正则表达式,但是由于太难,最后放弃了(学渣的眼泪。。。。),在这本书上的抓取猫眼电影排行上,后来自学了pyquery,发现用pyquery可以解决这个问题,目前自己试着写了代码

 

这个是抓取一页的情况的代码(没有图的链接以及排名还有其他90页的情况)

import requests
from pyquery import PyQuery as pq

def get_one_page(url):
    headers = {
        User-Agent:Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/67.0.3396.79 Safari/537.36
    }
    html = requests.get(url=url,headers=headers)
    return html.text

def parse_one_page(html):
    doc = pq(html)
    items = doc(dd .board-item-main .board-item-content .movie-item-info).items()
    for item in items:
        name = item.find(.name).text()
        star = item.find(.star).text()
        time = item.find(.releasetime).text()
        score = item.siblings(.movie-item-number .score .integer).text() + item.siblings(.movie-item-number .score .fraction).text()
        print(电影名: + name + 
 +
              star + 
 + time + 
 + 评分:+score +
)

url = http://maoyan.com/board/4
html = get_one_page(url)
parse_one_page(html)

 

以上是关于用pyquery 初步改写崔庆才的 抓取猫眼电影排行(正在更新)特意置顶,提醒自己更新的主要内容,如果未能解决你的问题,请参考以下文章

网络爬虫学习——抓取猫眼电影排行

01 猫眼电影-最受期待榜榜单

selenium+chrome抓取淘宝宝贝-崔庆才思路

猫眼电影爬取:requests+pyquery,并将数据存储到mysql数据库

Python 3网络爬虫开发实战.pdf(崔庆才著)

# [爬虫Demo] pyquery+csv爬取猫眼电影top100