爬虫入门笔记

Posted 2020-09-30

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫入门笔记相关的知识，希望对你有一定的参考价值。

爬虫，在网络中爬行的一只蜘蛛，如遇到资源，就会按指定的规则抓取下来

爬虫爬取html代码后，通过分析和过滤这些HTML代码，实现对图片，文字等资源的获取

URL的格式由三部分组成：

　　1、第一部分是协议

　　2、第二部分是存储该资源的主机IP和端口

　　3、第三部分是资源的具体地址，如目录和文件名

爬虫爬取数据时必须有一个目标URL才可以获取数据，因此，它是爬虫获取数据根本

import re
import urllib.request
import urllib

from collections import deque

queue = deque()
visited = set()

url = ‘https://jecvay.com/‘

queue.append(url)
cnt = 0

while queue:
    url = queue.pop()
    visited.add(url)

    print(‘Count: ‘ + str(cnt) + ‘ visiting <--- ‘ + url)
    cnt += 1
    urlop = urllib.request.urlopen(url)
    if ‘html‘ not in urlop.getheader(‘Content-Type‘):
        continue

    try:
        data = urlop.read().decode(‘utf-8‘)
    except:
        continue

    linkre = re.compile(r‘href="(.+?)"‘)
    
    for x in linkre.findall(data):
        if ‘http‘ in x and x not in visited:
            queue.append(x)
            print(‘add---> ‘ + x)

以上是关于爬虫入门笔记的主要内容，如果未能解决你的问题，请参考以下文章