Python爬虫入门三之Urllib库的基本使用

Posted 2020-10-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫入门三之Urllib库的基本使用相关的知识，希望对你有一定的参考价值。

1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒一个网页下来。 import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 1 2 3 4 import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 是的你没看错，真正的程序就两行，把它保存成 demo.py，进入该文件的目录，执行如下命令查看运行结果，感受一下。 python demo.py 1 python demo.py 2015-02-13 00:09:09 的屏幕截图看，这个网页的源码已经被我们扒下来了，是不是很酸爽？ 2.分析扒网页的方法那么我们来分析这两行代码，第一行 response = urllib2.urlopen("http://www.baidu.com") 1 response = urllib2.urlopen("http://www.baidu.com") 首先我们调用的是urllib2库里面的urlopen方法，传入一个URL，这个网址是百度首页，协议是HTTP协议，当然你也可以把HTTP换做FTP,FILE,HTTPS 等等，只是代表了一种访问控制协议，urlopen一般接受三个参数，它的参数如下： urlopen(url, data, timeout) 1 urlopen(url, data, timeout) 第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT 第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。 print response.read() 1 print response.read() response对象有一个read方法，可以返回获取到的网页内容。如果不加read直接打印会是什么？答案如下：

以上是关于Python爬虫入门三之Urllib库的基本使用的主要内容，如果未能解决你的问题，请参考以下文章