读取网页的方法-爬虫学习

Posted klmyoil

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了读取网页的方法-爬虫学习相关的知识,希望对你有一定的参考价值。

 

1、读取全部网页

1 #encoding:utf-8
2 
3 import urllib2
4 def download1(url):
5     return urllib2.urlopen(url).read() #读取全部网页
6 
7 url="http://www.baidu.com" #urlopen只能处理http 不能处理https
8 print download3(url)

 

2、读取每一行的数据,压入列表

1 #encoding:utf-8
2 
3 import urllib2
4 
5 def download2(url):
6     return urllib2.urlopen(url).readlines() #读取每一行的数据,压入列表
7 
8 url="http://www.baidu.com" #urlopen只能处理http 不能处理https
9 print download2(url)

 

3、网页抽象为文件

 1 #encoding:utf-8
 2 import urllib2
 3 
 4 def download3(url):
 5     response=urllib2.urlopen(url)#网页抽象为文件
 6     while True:
 7         line=response.readline()#读取每一行
 8         if not line:
 9             break
10         print line
11 
12 url="http://www.baidu.com" #urlopen只能处理http 不能处理https
13 print download3(url)

 

以上是关于读取网页的方法-爬虫学习的主要内容,如果未能解决你的问题,请参考以下文章

爬虫学习——网页下载器和urllib2模块

Python网络爬虫学习手记——爬虫基础

2023爬虫学习笔记 -- 某狗网站爬取数据

第9课解析网页中的元素-四周学会爬虫系统

网页爬虫获取课程信息

网页爬虫获取课程信息