读取网页的方法-爬虫学习
Posted klmyoil
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了读取网页的方法-爬虫学习相关的知识,希望对你有一定的参考价值。
1、读取全部网页
1 #encoding:utf-8 2 3 import urllib2 4 def download1(url): 5 return urllib2.urlopen(url).read() #读取全部网页 6 7 url="http://www.baidu.com" #urlopen只能处理http 不能处理https 8 print download3(url)
2、读取每一行的数据,压入列表
1 #encoding:utf-8 2 3 import urllib2 4 5 def download2(url): 6 return urllib2.urlopen(url).readlines() #读取每一行的数据,压入列表 7 8 url="http://www.baidu.com" #urlopen只能处理http 不能处理https 9 print download2(url)
3、网页抽象为文件
1 #encoding:utf-8 2 import urllib2 3 4 def download3(url): 5 response=urllib2.urlopen(url)#网页抽象为文件 6 while True: 7 line=response.readline()#读取每一行 8 if not line: 9 break 10 print line 11 12 url="http://www.baidu.com" #urlopen只能处理http 不能处理https 13 print download3(url)
以上是关于读取网页的方法-爬虫学习的主要内容,如果未能解决你的问题,请参考以下文章