Python网络爬虫之网页抓取

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python网络爬虫之网页抓取相关的知识,希望对你有一定的参考价值。

  网络爬虫,我们可以把它理解为在网络上面爬行的一只蜘蛛,互联网就比如一张大网,而爬虫就像一只蜘蛛在这上面爬来爬去, 遇到资源它就可以把它抓取下来。

  在浏览器中输入一个网址,即打开一个网页后,我们可以看到这个页面上有好多文字、图片等,这个过程其实就是用户输入一个网址后,向服务器发出了一个请求,服务器经过解析后,发送给浏览器HTML、JS、CSS等文件,浏览器解析后,就出现了许许多多的文字、图片等。因此,我们看到的网页实质是由HTML代码构成的,只不过经过浏览器的解释后,将这些代码隐藏起来了;爬虫要爬的就是这些内容,通过分析和过滤这些HTML代码,实现对文字、图片等资源的获取。

  爬虫爬取数据时必须要有一个明确的URL才可以获取数据,URL即统一资源定位符,就是我们常说的网址。爬虫爬取网页,其实就是根据URL来获取它的网页信息。对于静态网页,下面有两种简单的方法可以实现网页信息的抓取。

1. 调用urillib2库里面的urlopen方法,传入一个URL(即网址),执行urlopen方法后,返回一个response对象,返回信息便被保存在这里面,通过response对象的read方法,返回获取到的网页内容,代码如下:

1 import urllib2
2  
3 response = urllib2.urlopen("http://www.cnblogs.com/mix88/")
4 print response.read()

2. 通过构造一个request对象,urlopen方法传入一个request请求来实现网页的抓取,代码如下:

1 import urllib2
2  
3 request = urllib2.Request("http://www.cnblogs.com/mix88/")
4 response = urllib2.urlopen(request)
5 print response.read()

 

以上是关于Python网络爬虫之网页抓取的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫怎么抓取html网页的代码块

Python项目实战之网络爬虫详解

#yyds干货盘点#Python爬虫之Urllib用法合集

python网络爬虫抓取动态网页并将数据存入数据库MySQL

Python爬虫入门二之爬虫基础了解

Python爬虫入门二之爬虫基础了解