第一篇爬虫技术入门了解篇

Posted 2021-04-30 python编程军火库

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第一篇爬虫技术入门了解篇相关的知识，希望对你有一定的参考价值。

各位小伙伴大家好，从今天起我们就正式开始爬虫技术的讨论，本期我们主要说明以下几个问题：

1.什么是爬虫

爬虫，即网络爬虫，大家可以理解为在网络上爬行的一只蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它,通过特定的逻辑获取你想要的资源。

比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，就可以爬取到你想要获取的东西了

2.浏览网页的过程

用户浏览网页的过程中，我们可能会看到许多好看的图片，比如我们会看到几张的图片以及百度搜索框，这个过程其实就是用户输入网址之后，经过DNS服务器，找到服务器主机，向服务器发出一个请求，服务器经过解析之后，发送给用户的浏览器 html、JS、CSS 等文件，浏览器解析出来，用户便可以看到形形色色的图片了。

因此，用户看到的网页实质是基于HTML代码构成的，其余的样式以及各种绚丽的动画都是通过CSS和JS 技术加载出来的。爬虫爬来的便是这些内容，通过分析和过滤这些 HTML 代码，实现对图片、文字等资源的获取。

3.URL的含义

URL的格式由三部分组成：

①第一部分是协议(或称为服务方式)。

爬虫爬取数据时必须要有一个目标的URL才可以获取数据，因此，它是爬虫获取数据的基本依据，准确理解它的含义对爬虫学习有很大帮助。

4. 环境的配置

本套教程我们使用python3版本，编辑代码工具使用pycharm.目前还没有搭建起环境的小伙伴可以在后台点击：资源获取按钮，输入数字获取，并进行安装。

5.对爬虫的误解的解释
爬虫不是万能的，但是没有爬虫是万万不能的，开个玩笑。其实爬虫并不是能自动的解决任何事情，有了它能提高生产力那是一定的，但是你想让他向人一样的解决一切问题是不可能的。比如，识别图片，提取一段文字中的意思，这些单纯的靠爬虫技术是完不成的，请大家有一个清晰的认识。

好了本期就先分享到这里，从下一期开始我们就会从0开始一边敲代码一边讲解技术了，各位小伙伴请做好准备！

当你发现自己的才华撑不起野心时，请安静的坐下来学习吧。

------还是牛

公众号ID：pythonCoder1024