爬虫初入

Posted 2021-01-20 yuliangkaiyue

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫初入相关的知识，希望对你有一定的参考价值。

什么是爬虫？

爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。

爬虫的分类

通用爬虫

　　通用爬虫是搜索引擎“抓取系统”的重要组成部分，主要目的是将互联网上的内容下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能将网页下载到本地服务器进行备份，再对这些内容进行处理，最后提供一个用户检索接口。

聚焦爬虫

　　根据指定需求抓取互联网上指定的数据。

反爬虫

　　门户网站通过一定的策略和技术手段，防止爬虫程序进行网站数据的爬取。

反反爬虫

　　爬虫程序通过相应的技术和手段，破解门户网站的饭爬虫手段，从而爬取到相应的数据。

以上是关于爬虫初入的主要内容，如果未能解决你的问题，请参考以下文章

15《Python 原生爬虫教程》爬虫和反爬虫

Python爬虫入门：爬虫基础了解

Python爬虫|网络爬虫简介

Python爬虫|网络爬虫简介

Python爬虫|网络爬虫简介

爬虫篇 | 高级爬虫:Scrapy爬虫框架的安装