urllib库:分析Robots协议

Posted gxj521test

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了urllib库:分析Robots协议相关的知识,希望对你有一定的参考价值。

 1from urllib.robotparser import RobotFileParser
2import ssl
3from urllib.request import urlopen
4ssl._create_default_https_context = ssl._create_unverified_context
5
6rp = RobotFileParser()
7rp.set_url(‘http://www.jianshu.com/robots.txt‘)
8rp.read()
9print(rp.can_fetch(‘*‘‘http://www.jianshu.com/p/b6755402d7d‘))
10print(rp.can_fetch(‘*‘‘http://www.jianshu.com/search?q=python&page=1&type=note‘))

parse()读取分析

1rp = RobotFileParser()
2rp.parse(urlopen(‘http://www.jianshu.com/robots.txt‘).read().decode(‘utf-8‘).split(‘ ‘))

`













以上是关于urllib库:分析Robots协议的主要内容,如果未能解决你的问题,请参考以下文章

Python3网络爬虫实战-23使用Urllib:分析Robots协议

史上最详细的Python爬虫库urllib讲解:绝对经典,值得收藏

芝麻HTTP:分析Robots协议

08_Robots协议

python爬虫目录

Urllib库