网络爬虫我用phython

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫我用phython相关的知识,希望对你有一定的参考价值。

检查robots文件,地址是否要爬虫,不能作为盈利为目的

准备工作http://www.taobao.com/robots.txt  

  1. 1内容如下:百度不可以抓取淘宝首页
User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Allow:  /wenzhang
Disallow:  /product/
Disallow:  /

User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /wenzhang
Allow:  /oversea
Disallow:  /

User-agent:  Bingbot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /wenzhang
Allow:  /oversea
Disallow:  /

User-Agent:  360Spider
Allow:  /article
Allow:  /oshtml
Allow:  /wenzhang
Disallow:  /

User-Agent:  Yisouspider
Allow:  /article
Allow:  /oshtml
Allow:  /wenzhang
Disallow:  /

User-Agent:  Sogouspider
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /wenzhang
Disallow:  /

User-Agent:  Yahoo!  Slurp
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /wenzhang
Allow:  /oversea
Disallow:  /

User-Agent:  *
Disallow:  /  不允许任何爬虫访问该网站

1.2 网站地图

以上是关于网络爬虫我用phython的主要内容,如果未能解决你的问题,请参考以下文章

别人用钱,而我用python爬虫爬取了一年的4K高清壁纸

别人用钱,而我用python爬虫爬取了一年的4K高清壁纸

scrapy按顺序启动多个爬虫代码片段(python3)

scrapy主动退出爬虫的代码片段(python3)

我用Python爬虫爬取并分析了C站前100用户最高访问的2000篇文章

python网络爬虫