Python爬虫编程思想(16):Robots协议(不了解这个就是面向监狱编程了)

Posted 蒙娜丽宁

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫编程思想(16):Robots协议(不了解这个就是面向监狱编程了)相关的知识,希望对你有一定的参考价值。

        Python爬虫编程思想(17):使用urllib3发送HTTP Get和HTTP POST请求

目录

1. Robots协议简介

 2. 分析Robots协议


        本问会介绍什么是Robots协议,以及如何用Robots协议规范爬虫的行为。

1. Robots协议简介

        Robots协议也称作爬虫协议、机器人协议,它的全名是网络爬虫排除标准(Robots Exclusing Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。该协议的内容通常放在一个名为robots.txt的文本文件中,该文件一般位于网站的根目录下。

        注意,robots.txt文件中的内容只是告诉爬虫应该抓取什么,不应该抓取什么࿰

以上是关于Python爬虫编程思想(16):Robots协议(不了解这个就是面向监狱编程了)的主要内容,如果未能解决你的问题,请参考以下文章

python3 爬虫5--分析Robots协议

Python爬虫的道德规范---robots协议

Python3网络爬虫实战-23使用Urllib:分析Robots协议

python3爬虫学习笔记

Python 网络爬虫与数据采集

查看 搜索引擎的robots协议 及其他 爬虫基础-2