使用正则做的一个爬虫小例子

Posted 2021-01-21 python884

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了使用正则做的一个爬虫小例子相关的知识，希望对你有一定的参考价值。

from urllib.request import urlopen
import re

"""
爬虫，爬一个豆瓣网，把爬出来的存储到一个文件
"""


def get_request(url):
    """
    把网址变为源码，因为计算机只能读懂源码，然后吧源码变为utf-8的格式
    :param url:
    :return:
    """
    ret = urlopen(url)
    return ret.read().decode(‘utf-8‘)


def get_findall(s):
    """
    把源码的utf-8的正则显示出来，满足的就以列表打印出来
    :param s:
    :return:
    """
    ret = re.findall(
            ‘<div class="item">.*?<div class="pic">.*?<em.*?>(?P<id>\d.).*?<span class="title">.*?(?P<name>.*?)</span>‘
            ‘.*?<span class="rating_num".*?>(?P<arg>.*?)</span>.*?<span>(?P<cou>.*?)评价</span>‘, s, re.S)
    return ret


def get_ur(w):
    """
    调用函数。

    :param w:
    :return:
    """
    url = ‘https://movie.douban.com/top250?start=%s&filter=‘ % w
    ret = get_request(url)
    ret = get_findall(ret)
    return ret


con = 0
while con < 30:
    ret = get_ur(con)
    with open(‘电影‘, ‘w‘, encoding=‘utf-8‘) as f:
        if ret:
            try:
                a = tuple(ret)
                b = list(a)
                f.write(str(b))
            except Exception:
                print(‘hehe1‘)


    f.close()

print(ret)

以上是关于使用正则做的一个爬虫小例子的主要内容，如果未能解决你的问题，请参考以下文章

进程池与回调函数与正则表达式和re爬虫例子

python爬虫实战——5分钟做个图片自动下载器

爬虫必备安装和使用Xpath正则表达式插件以及 F12的抓包流程

送给初学爬虫者们的一个小工具:如何用正则匹配headers？

VS中添加自定义代码片段——偷懒小技巧

分享几个实用的代码片段（附代码例子）