Python网络爬虫之网页抓取

Posted 2020-09-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python网络爬虫之网页抓取相关的知识，希望对你有一定的参考价值。

　　网络爬虫，我们可以把它理解为在网络上面爬行的一只蜘蛛，互联网就比如一张大网，而爬虫就像一只蜘蛛在这上面爬来爬去，遇到资源它就可以把它抓取下来。

　　在浏览器中输入一个网址，即打开一个网页后，我们可以看到这个页面上有好多文字、图片等，这个过程其实就是用户输入一个网址后，向服务器发出了一个请求，服务器经过解析后，发送给浏览器HTML、JS、CSS等文件，浏览器解析后，就出现了许许多多的文字、图片等。因此，我们看到的网页实质是由HTML代码构成的，只不过经过浏览器的解释后，将这些代码隐藏起来了；爬虫要爬的就是这些内容，通过分析和过滤这些HTML代码，实现对文字、图片等资源的获取。

　　爬虫爬取数据时必须要有一个明确的URL才可以获取数据，URL即统一资源定位符，就是我们常说的网址。爬虫爬取网页，其实就是根据URL来获取它的网页信息。对于静态网页，下面有两种简单的方法可以实现网页信息的抓取。

1. 调用urillib2库里面的urlopen方法，传入一个URL(即网址)，执行urlopen方法后，返回一个response对象，返回信息便被保存在这里面，通过response对象的read方法，返回获取到的网页内容，代码如下：

1 import urllib2
2  
3 response = urllib2.urlopen("http://www.cnblogs.com/mix88/")
4 print response.read()

2. 通过构造一个request对象，urlopen方法传入一个request请求来实现网页的抓取，代码如下：

1 import urllib2
2  
3 request = urllib2.Request("http://www.cnblogs.com/mix88/")
4 response = urllib2.urlopen(request)
5 print response.read()

以上是关于Python网络爬虫之网页抓取的主要内容，如果未能解决你的问题，请参考以下文章