python小课堂专栏python小课堂31 - 初识原生爬虫

Posted 2023-01-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python小课堂专栏python小课堂31 - 初识原生爬虫相关的知识，希望对你有一定的参考价值。

python小课堂31 - 初识原生爬虫

前言

在上一期介绍了爬虫之前必会浏览器的开发者工具，忘记的童鞋可以在回顾一下：

本篇文章将以实战来介绍一期 “原生” 爬虫，这里的原生是指使用 python 自带的请求库来完成爬虫，不借用第三方库（如 requests…贼好用！谁用谁知道…）。同时需要注意的是本次案例不使用任何爬虫框架去完成，大部分知识依赖于前面介绍的基础知识，少部分知识需要后续介绍学习。

PS：本期爬虫案例并不是最完善的爬虫，仅为了将爬虫的原理基础介绍清楚。要清楚，爬虫具有时效性，由于现在各大网站都有相关的反爬机制，所以也许现在写的爬虫代码此时适用，但过些时日就可能失效了，这点需要注意。本章仅供学习参考，请在遵守网络法律前提下进行相关操作。

什么是爬虫？

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。 – 百度百科

引用了下百度百科对爬虫的定义，接下来用笔者理解的大白话来说下：在咱们现在生活的这个时代，多数信息的传递都是以浏览器作媒介进行传播的，比如你要查寻一部电影，你首先得打开浏览器，然后打开百度（或谷歌或其他搜索引擎）的主页，在搜索框输入XXXX，回车后就会跳转到相应的网页，而这些所谓的搜索引擎，如百度，其本身就是一个大爬虫。

【python小课堂专栏】python小课堂31

互联网就像一张蜘蛛网，你可以想象成每个网页就是粘在蜘蛛网上被包裹住的食物，在这张蜘蛛网上，不同网页组成了许多食物，食物的种类过于繁多，作为人类的你，想要从中挑选最美味，最可口的食物很是麻烦，于是创造出来一个可以行进于蜘蛛网上的“蜘蛛”，通过给蜘蛛下达规则性的命令，让蜘蛛来在这张网上帮你搜寻你想要的“食物”。

上面所讲的小故事，人类泛指开发者，蜘蛛泛指爬虫，而食物则泛指网页，或者说是信息。

最后一句话总结一下：爬虫，即在网络上，根据你所定义的规则流程，通过程序化将你想要的，有用的信息获取下来，这个程序称之为爬虫。

王者荣耀直播

这里就用笔者近期玩的游戏来做一次有趣的分享吧，王者荣耀。

众所周知，近几年随着物质生活的提高，相应精神物质也随之上升，越来越多的游戏被大家所认知，比如风靡一时的 dota2、 LOL等，近两年移动端的火热，例如吃鸡、王者荣耀等。。。随着游戏本身“社会地位”的上升，相应的越来越多人选择做起了直播，观众们可以第一视角观看直播的犀利操作，从中学习相关操作，提升自己的操作意识。

那这里呢，笔者就以王者荣耀的直播为例（因为在王者方面，笔者也算是上过王者的男人）废话不多说，下面进入正题。