爬虫—心蓝（20161016）

Posted 2021-01-13 wxq201810

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫—心蓝（20161016）相关的知识，希望对你有一定的参考价值。

课题：爬取58同城房产信息
一、服务器架构：
1.C/S:（client/server）客户端/服务器
客户端提供请求，服务端响应请求进行对应的处理，并返回给客户端，客户端来显示这些内容。
2.B/S:B/S(browser/server) 浏览器/服务器
用户界面是完全通过www浏览器来实现，一部分事务在前端实现，主要事务逻辑再服务器端实现。

二、rul和http
url:全球统一资源定位符。（网址，地址）
http协议：是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。
         设计HTTP最初的目的是为了提供一种发布和接收html页面的方法。
网络资源：公国互联网可以访问到的网页，图片，流媒体，文件，接口。
一个网页一般有多个网络资源组成。
一次http请求一般只能请求一个网络资源。

三、Web原理：
客户端浏览器->http请求->cocket服务->服务器 路由系统分发请求
->业务模块->处理http请求->http响应->客户端浏览器

四、用爬虫获取数据
1.目标数据 找到所在网页的 URL。
2.分析Http请求流程，找到下载目标数据的那条http请求。
3.伪造这个http请求流程 url method  data  headers 下载数据。
4.提取和清洗数据。
5.数据持久化。保存到本地文件，保存到数据库。

五、开发环境：
   python3 + windows +pycharm
   第三方库：requests  安装 pip install requests 命令行


代码部分：

以上是关于爬虫—心蓝（20161016）的主要内容，如果未能解决你的问题，请参考以下文章

NOIP模拟赛20161016R1

15《Python 原生爬虫教程》爬虫和反爬虫

Python爬虫入门：爬虫基础了解

Python爬虫|网络爬虫简介