用pyquery 初步改写崔庆才的 抓取猫眼电影排行(正在更新)特意置顶,提醒自己更新
Posted weixu-liu
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用pyquery 初步改写崔庆才的 抓取猫眼电影排行(正在更新)特意置顶,提醒自己更新相关的知识,希望对你有一定的参考价值。
目前正在学Python爬虫,正在读崔庆才的《Python3网络爬虫开发实战》,之前学习正则表达式,但是由于太难,最后放弃了(学渣的眼泪。。。。),在这本书上的抓取猫眼电影排行上,后来自学了pyquery,发现用pyquery可以解决这个问题,目前自己试着写了代码
这个是抓取一页的情况的代码(没有图的链接以及排名还有其他90页的情况)
import requests from pyquery import PyQuery as pq def get_one_page(url): headers = { ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/67.0.3396.79 Safari/537.36‘ } html = requests.get(url=url,headers=headers) return html.text def parse_one_page(html): doc = pq(html) items = doc(‘dd .board-item-main .board-item-content .movie-item-info‘).items() for item in items: name = item.find(‘.name‘).text() star = item.find(‘.star‘).text() time = item.find(‘.releasetime‘).text() score = item.siblings(‘.movie-item-number .score .integer‘).text() + item.siblings(‘.movie-item-number .score .fraction‘).text() print(‘电影名:‘ + name + ‘ ‘ + star + ‘ ‘ + time + ‘ ‘ + ‘评分:‘+score +‘ ‘) url = ‘http://maoyan.com/board/4‘ html = get_one_page(url) parse_one_page(html)
以上是关于用pyquery 初步改写崔庆才的 抓取猫眼电影排行(正在更新)特意置顶,提醒自己更新的主要内容,如果未能解决你的问题,请参考以下文章