转 Python爬虫入门四之Urllib库的高级用法

Posted 2020-07-18 njczy2010

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了转 Python爬虫入门四之Urllib库的高级用法相关的知识，希望对你有一定的参考价值。

1.设置Headers

有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。

首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome，打开网络监听，示意如下，比如知乎，点登录之后，我们会发现登陆之后界面都变化了，出现一个新的界面，实质上这个页面包含了许许多多的内容，这些内容也不是一次性就加载完成的，实质上是执行了好多次请求，一般是首先请求html文件，然后加载JS，CSS 等等，经过多次请求之后，网页的骨架和肌肉全了，整个网页的效果也就出来了。

拆分这些请求，我们只看一第一个请求，你可以看到，有个Request URL，还有headers，下面便是response，图片显示得不全，小伙伴们可以亲身实验一下。那么这个头中包含了许许多多是信息，有文件编码啦，压缩方式啦，请求的agent啦等等。

其中，agent就是请求的身份，如果没有写入请求身份，那么服务器不一定会响应，所以可以在headers中设置agent,例如下面的例子，这个例子只是说明了怎样设置的headers，小伙伴们看一下设置格式就好。

以上是关于转 Python爬虫入门四之Urllib库的高级用法的主要内容，如果未能解决你的问题，请参考以下文章

如何入门爬虫（基础篇）

python爬虫

Python爬虫入门：Urllib库的高级使用

Python爬虫入门之Urllib库的高级用法

Python爬虫入门：爬虫基础了解

Python爬虫Urllib库的高级用法