爬虫基础 - Robots协议
Posted zhaijihai
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫基础 - Robots协议相关的知识,希望对你有一定的参考价值。
Robots协议
指定一个robots.txt文件,告诉爬虫引擎怎么爬取
https://www.taobao.com/robots.txt
User-agent: Baiduspider Allow: /article Allow: /oshtml Allow: /ershou Allow: /$ Disallow: /product/ Disallow: / User-Agent: Googlebot Allow: /article Allow: /oshtml Allow: /product Allow: /spu Allow: /dianpu Allow: /oversea Allow: /list Allow: /ershou Allow: /$ Disallow: / User-agent: Bingbot Allow: /article Allow: /oshtml Allow: /product Allow: /spu Allow: /dianpu Allow: /oversea Allow: /list Allow: /ershou Allow: /$ Disallow: / User-Agent: 360Spider Allow: /article Allow: /oshtml Allow: /ershou Disallow: / User-Agent: Yisouspider Allow: /article Allow: /oshtml Allow: /ershou Disallow: / User-Agent: Sogouspider Allow: /article Allow: /oshtml Allow: /product Allow: /ershou Disallow: / User-Agent: Yahoo! Slurp Allow: /product Allow: /spu Allow: /dianpu Allow: /oversea Allow: /list Allow: /ershou Allow: /$ Disallow: / User-Agent: * Disallow: /
其他爬虫,不允许爬取
User-Agent: *
DisalloW: /
这是一个君子协定,‘爬亦有道‘
这个协议为了让搜索引擎更有效搜索自己的内容
以上是关于爬虫基础 - Robots协议的主要内容,如果未能解决你的问题,请参考以下文章