爬虫----初级概念的架构

Posted 2021-02-10 cittysteven

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫----初级概念的架构相关的知识，希望对你有一定的参考价值。

每次遇到爬虫，总会听到python，php等等词，其实什么语言无所谓，只要会用就行了。当然，有些人听到爬虫，就会觉得很高级，还在写网站的时候就在想反扒技术什么的，搞得爬虫变成了一个神秘莫测的东西。然而，我想告诉你的是爬虫真的很简单，几分钟搞定它的基本架构，下面请跟我来。

首先，爬虫要做的事情是将获取网页信息，并且将信息保存在一个地方等待被调用。因此爬虫的架构宏观上就有三部分：

网页---》爬虫处理---》保存；

只要将这三个部分处理好了，爬虫也就会了。(基于python语言）

然而，从网页上获取数据，以及对数据进行处理，然后将数据进行存储，这些都是需要爬虫这部分要做的。下面我将对工具进行介绍：

1. 对网页结构要有足够的理解-----熟悉html语言

2.获取网页信息工具：requests包（python包）

import requests

variable = requests.get(url)

3.处理网页信息工具：BeautifulSoup（python包）

from bs4 import beautifulsoup

soup = beautifulsoup(variable)

待续。。。

4.信息存储工具（待续）

5.代码编辑器（pycharm）

以上是关于爬虫----初级概念的架构的主要内容，如果未能解决你的问题，请参考以下文章