Python爬虫编程思想(16):Robots协议(不了解这个就是面向监狱编程了)
Posted 蒙娜丽宁
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫编程思想(16):Robots协议(不了解这个就是面向监狱编程了)相关的知识,希望对你有一定的参考价值。
Python爬虫编程思想(17):使用urllib3发送HTTP Get和HTTP POST请求
目录
本问会介绍什么是Robots协议,以及如何用Robots协议规范爬虫的行为。
1. Robots协议简介
Robots协议也称作爬虫协议、机器人协议,它的全名是网络爬虫排除标准(Robots Exclusing Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。该协议的内容通常放在一个名为robots.txt的文本文件中,该文件一般位于网站的根目录下。
注意,robots.txt文件中的内容只是告诉爬虫应该抓取什么,不应该抓取什么
以上是关于Python爬虫编程思想(16):Robots协议(不了解这个就是面向监狱编程了)的主要内容,如果未能解决你的问题,请参考以下文章