python 爬虫学习之路

Posted 2020-07-26 打不死的奥特曼

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了python 爬虫学习之路相关的知识，希望对你有一定的参考价值。

2016-6-18

--今天实现了第一个用urllib2实现的爬虫程序。

--过程中发现

 req = urllib2.Request(url,headers = headers)

总是报错：主要原因在于 url 地址错误。

例如：http://www.neihan8.com/wenzi/index_1.html

这个网址打开的是404网页错误。

但是 http://www.neihan8.com/wenzi/index_2.html 这个网页却可以了。

源代码如下：

#-*- coding:utf-8 -*-
import urllib2
class Spider:
    \'\'\'
        内涵段子吧。。。
    \'\'\'
    def load_page(self,page):
        \'\'\'
        发送内涵段子url
        \'\'\'
        url = \'http://www.neihan8.com/wenzi/index_\'+ str(page) +\'.html\'
        headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.63 Safari/537.36"}
        req = urllib2.Request(url,headers = headers)
        response = urllib2.urlopen(req)
        html = response.read()
        return  html
#main
\'\'\'

\'\'\'
if __name__ == \'__main__\':
    mySpider = Spider()
    the_page = mySpider.load_page(2)
    print the_page

　　综上，我们可以在代码中加一个判断 url 是否打开正常的代码，这个需要学习。

-----------------------------------------------------------华丽丽的分割线-------------------------------------------------------------------------------------------------

安装Scrapy