爬虫入门笔记

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫入门笔记相关的知识,希望对你有一定的参考价值。

爬虫,在网络中爬行的一只蜘蛛,如遇到资源,就会按指定的规则抓取下来

爬虫爬取html代码后,通过分析和过滤这些HTML代码,实现对图片,文字等资源的获取

URL的格式由三部分组成:

  1、第一部分是协议

  2、第二部分是存储该资源的主机IP和端口

  3、第三部分是资源的具体地址,如目录和文件名

爬虫爬取数据时必须有一个目标URL才可以获取数据,因此,它是爬虫获取数据根本

import re
import urllib.request
import urllib

from collections import deque

queue = deque()
visited = set()

url = https://jecvay.com/

queue.append(url)
cnt = 0

while queue:
    url = queue.pop()
    visited.add(url)

    print(Count:  + str(cnt) +  visiting <---  + url)
    cnt += 1
    urlop = urllib.request.urlopen(url)
    if html not in urlop.getheader(Content-Type):
        continue

    try:
        data = urlop.read().decode(utf-8)
    except:
        continue

    linkre = re.compile(rhref="(.+?)")
    
    for x in linkre.findall(data):
        if http in x and x not in visited:
            queue.append(x)
            print(add--->  + x)

 

以上是关于爬虫入门笔记的主要内容,如果未能解决你的问题,请参考以下文章

python 网络爬虫入门笔记

爬虫入门实战:斗鱼弹幕数据抓取,附送11节入门笔记

Python自学笔记10个爬虫入门实例,附源码,注释对新手友好

python爬虫学习笔记-M3U8流视频数据爬虫

scrapy按顺序启动多个爬虫代码片段(python3)

《Python爬虫学习系列教程》学习笔记