爬虫知识超详细讲解(零基础入门，老年人都看的懂)

Posted 2021-11-08 爱吃巧乐兹～

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫知识超详细讲解(零基础入门，老年人都看的懂)相关的知识，希望对你有一定的参考价值。

1.爬虫是什么？

网络爬虫是一种按照一定的规则、自动的抓取万维网信息的脚本或者程序

简单来说：爬虫是用事先写好的程序去抓取网络上的数据，这样的程序叫爬虫

2.爬虫的分类

按照使用场景来分，可以分为两类：通用爬虫和聚焦爬虫

通用爬虫：搜索引擎爬虫（百度）

聚焦爬虫：获取想要的数据

3.爬虫就是在模仿人类的操作

4.爬虫的知识体系和相关工具（必须掌握）

 1.概念
        利用HTTP协议，从网站采集、提取数据的过程
    2.知识结构及路线图
        1）web前端
            （1）html
            （2）CSS  层级样式表
            （3）JS
        2）HTTP超文本传输协议
        3）Python语言
        4）HTTP编程
            （1）Python标准库：urllib
            （2）第三方库：requests（需要安装、下载）
        5）数据采集
            （1）文本类型
            （2）图片
            （3）媒体文件（e.g. ：音乐、视频）
        6）数据提取
            （1）XPath
            （2）正则表达式
            （3）Beautiful Soup
        7）数据存储
            （1）文本文档
            （2）mysql数据库
            （3）Excel
            （4）MongoBD数据库
            （5）Redis数据库
        8）反爬虫技术应用
            （1）图片验证码
            （2）滑块验证码
            （3）IP代理池
            （4）封装请求头
            （5）动态内容处理
                1>Ajax
                2>Selenium
            （6）JS加密
            （7）Cookie加密
            （8）CSS加密
            （9）Base64加密
        9）爬虫框架
            （1）Scrapy框架
                1>scrapy-redis分布式爬虫
            （2）pyspider框架
    3.工具
        1）环境
            （1）windows
            （2）Linux系统
        2）开发
            （1）Python
                1>pycharm
            （2）数据库
                1>MySQL
                2>MongolianDB
                3>Redis
            （3）浏览器
                1>谷歌浏览器
                2>火狐浏览器

5.HTTP请求

客户端--发送请求（request）-->服务器
客户端<--返回响应（response）--服务器

请求方式：get请求/post请求

get请求：会将请求的参数放到地址栏（URL）/网址后面，不安全

post请求：不会将请求的参数放到网址后面，相对安全

以上是关于爬虫知识超详细讲解(零基础入门，老年人都看的懂)的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫超详细讲解，零基础入门，老年人都看得懂

ASP.NET Core消息队列RabbitMQ基础入门实战演练

C语言入门基础必备知识串讲-超详细！（新人疑惑解决）

这是一篇人人都看的懂 HTTPS 的文章

python爬虫从入门到放弃，含案例分析，超详细讲解