第四节:web爬虫之urllib

Posted 懒惰的小松鼠

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第四节:web爬虫之urllib相关的知识,希望对你有一定的参考价值。

一、urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False,   context=None)

简介:urllib.request.urlopen()函数用于实现对目标url的访问

参数详解:

  url:  需要打开的网址

  data:Post提交的数据

  timeout:设置网站的访问超时时间

  cafile:CA证书文件

  capath:CA证书文件目录

  cadefault:cadefault已经弃用,默认为False

  context:设置SSL

 

以上是关于第四节:web爬虫之urllib的主要内容,如果未能解决你的问题,请参考以下文章

第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息

爬虫学习之第四章爬虫进阶之多线程爬虫

python第二十四节——爬虫—http协议讲解-1

第四篇 爬虫技术之PyQuery 实战篇

第四章爬虫进阶之动态网页数据抓取

第三百五十四节,Python分布式爬虫打造搜索引擎Scrapy精讲—数据收集(Stats Collection)