网络爬虫我用phython
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫我用phython相关的知识,希望对你有一定的参考价值。
检查robots文件,地址是否要爬虫,不能作为盈利为目的
准备工作http://www.taobao.com/robots.txt
- 1内容如下:百度不可以抓取淘宝首页
User-agent: Baiduspider Allow: /article Allow: /oshtml Allow: /wenzhang Disallow: /product/ Disallow: / User-Agent: Googlebot Allow: /article Allow: /oshtml Allow: /product Allow: /spu Allow: /dianpu Allow: /wenzhang Allow: /oversea Disallow: / User-agent: Bingbot Allow: /article Allow: /oshtml Allow: /product Allow: /spu Allow: /dianpu Allow: /wenzhang Allow: /oversea Disallow: / User-Agent: 360Spider Allow: /article Allow: /oshtml Allow: /wenzhang Disallow: / User-Agent: Yisouspider Allow: /article Allow: /oshtml Allow: /wenzhang Disallow: / User-Agent: Sogouspider Allow: /article Allow: /oshtml Allow: /product Allow: /wenzhang Disallow: / User-Agent: Yahoo! Slurp Allow: /product Allow: /spu Allow: /dianpu Allow: /wenzhang Allow: /oversea Disallow: / User-Agent: * Disallow: / 不允许任何爬虫访问该网站
1.2 网站地图
以上是关于网络爬虫我用phython的主要内容,如果未能解决你的问题,请参考以下文章