doraemon的python 爬虫 http和https的区别

Posted 2020-11-26 番茄炒蛋548542

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了doraemon的python 爬虫 http和https的区别相关的知识，希望对你有一定的参考价值。

爬虫相关概述

爬虫概念:
- 通过编写程序模拟浏览器上网,然后让其去互联网上爬取/抓取数据的过程
  - 模拟:浏览器就是一款纯天然的原始的爬虫工具
爬虫分类:
- 通用爬虫:爬取一整张页面中的数据. 抓取系统(爬虫程序)
- 聚焦爬虫:爬取页面中局部的数据.一定是建立在通用爬虫的基础之上
- 增量式爬虫:用来监测网站数据更新的情况.以便爬取到网站最新更新出来的数据
风险分析
- 合理的的使用
- 爬虫风险的体现:
  - 爬虫干扰了被访问网站的正常运营；
  - 爬虫抓取了受到法律保护的特定类型的数据或信息。
- 避免风险:
  - 严格遵守网站设置的robots协议；
  - 在规避反爬虫措施的同时，需要优化自己的代码，避免干扰被访问网站的正常运行；
  - 在使用、传播抓取到的信息时，应审查所抓取的内容，如发现属于用户的个人信息、隐私或者他人的商业秘密的，应及时停止并删除。
反爬机制
反反爬策略
robots.txt协议:文本协议,在文本中指定了可爬和不可爬的数据说明.

以上是关于doraemon的python 爬虫 http和https的区别的主要内容，如果未能解决你的问题，请参考以下文章