爬虫项目 (知识点)

Posted 2020-10-04

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫项目 (知识点)相关的知识，希望对你有一定的参考价值。

一. 基本介绍

什么是爬虫？
    - 就是抓取网页数据的程序

怎么抓取网页数据


网页三大特征:
    - 每个网页都有自己的URL (统一资源定位符) 来进行定位
    - 网页都是用html(超文本标记语言)来描述页面信息
    - 网页都使用HTTP/HTTPS(超文本传输协议)来传输HTML数据

爬虫的设计思路:
    -1. 首先确定需要爬取的网页URL地址
    -2. 通过HTTP/HTTPS协议来获取对应的HTML页面
    -3. 提取HTML页面里面有用的数据
        a. 如果是需要的数据,就保存起来。
        b. 如果是页面里的其它URL,那就继续执行第二步。

为什么选择Python做爬虫？
    - php   对多线程 异步支持不够好 并发处理很弱
    - Java  Python爬虫的最大对手,但是Java语言本身很笨重,代码量很大,重构成本比较高
    - C/C++ 运行效率几乎最强,但是学习成本很高,代码成型比较慢
    - Python 语言优美,代码简洁,开发效率高,支持的模块多,相关的HTTP请求模块和
             还有强大的爬虫Scrapy 以及成熟高效的scrapy-redis分布式策略
             而且 调用其他接口也非常方便(胶水语言)

View Code

以上是关于爬虫项目 (知识点)的主要内容，如果未能解决你的问题，请参考以下文章

小知识点给PythonWeb项目添加百度统计，爬虫训练场

小知识点爬虫训练场项目，Python Flask 模板更新，每次都要重新服务

Python爬虫项目班（七月在线）

爬虫项目 (知识点)

爬虫例子及知识点（scrapy知识点）