爬虫----初级概念的架构

Posted cittysteven

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫----初级概念的架构相关的知识,希望对你有一定的参考价值。

每次遇到爬虫,总会听到python,php等等词,其实什么语言无所谓,只要会用就行了。当然,有些人听到爬虫,就会觉得很高级,还在写网站的时候就在想反扒技术什么的,搞得爬虫变成了一个神秘莫测的东西。然而,我想告诉你的是爬虫真的很简单,几分钟搞定它的基本架构,下面请跟我来。

首先,爬虫要做的事情是将获取网页信息,并且将信息保存在一个地方等待被调用。因此爬虫的架构宏观上就有三部分:

 

网页---》爬虫处理---》保存;

只要将这三个部分处理好了,爬虫也就会了。(基于python语言)

然而,从网页上获取数据,以及对数据进行处理,然后将数据进行存储,这些都是需要爬虫这部分要做的。下面我将对工具进行介绍:

1. 对网页结构要有足够的理解-----熟悉html语言

2.获取网页信息工具:requests包(python包)

import requests

variable = requests.get(url)

3.处理网页信息工具:BeautifulSoup(python包)

from bs4 import beautifulsoup

soup = beautifulsoup(variable)

待续。。。

4.信息存储工具(待续)

5.代码编辑器(pycharm)

以上是关于爬虫----初级概念的架构的主要内容,如果未能解决你的问题,请参考以下文章

关于爬虫的日常复习(14)—— 爬虫beautifulsoup的初级高级的基本用法

pythonl练习笔记——爬虫的初级中级高级所匹配的知识

python爬虫 模拟登陆校园网-初级

[Python] 网络爬虫实战:网站链接的初级爬取

Tomcat & Servlet初级

基于WCF构建企业级大型分布式SOA架构(初级篇)视频课程