爬虫—心蓝(20161016)

Posted wxq201810

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫—心蓝(20161016)相关的知识,希望对你有一定的参考价值。

课题:爬取58同城房产信息
一、服务器架构:

1.C/S:(client/server)客户端/服务器
客户端提供请求,服务端响应请求进行对应的处理,并返回给客户端,客户端来显示这些内容。
2.B/S:B/S(browser/server) 浏览器/服务器
用户界面是完全通过www浏览器来实现,一部分事务在前端实现,主要事务逻辑再服务器端实现。

二、rul和http
url:全球统一资源定位符。(网址,地址)
http协议:是互联网上应用最为广泛的一种网络协议。所有的WWW文件都必须遵守这个标准。
设计HTTP最初的目的是为了提供一种发布和接收html页面的方法。
网络资源:公国互联网可以访问到的网页,图片,流媒体,文件,接口。
一个网页一般有多个网络资源组成。
一次http请求一般只能请求一个网络资源。

三、Web原理:
客户端浏览器->http请求->cocket服务->服务器 路由系统分发请求
->业务模块->处理http请求->http响应->客户端浏览器

四、用爬虫获取数据
1.目标数据 找到所在网页的 URL。
2.分析Http请求流程,找到下载目标数据的那条http请求。
3.伪造这个http请求流程 url method data headers 下载数据。
4.提取和清洗数据。
5.数据持久化。保存到本地文件,保存到数据库。

五、开发环境:
python3 + windows +pycharm
第三方库:requests 安装 pip install requests 命令行

代码部分:

















































以上是关于爬虫—心蓝(20161016)的主要内容,如果未能解决你的问题,请参考以下文章

NOIP模拟赛20161016R1

15《Python 原生爬虫教程》爬虫和反爬虫

Python爬虫入门:爬虫基础了解

Python爬虫|网络爬虫简介

Python爬虫|网络爬虫简介

Python爬虫|网络爬虫简介