Python爬虫 - 爬取百度html代码前200行
Posted Alick陈彬
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫 - 爬取百度html代码前200行相关的知识,希望对你有一定的参考价值。
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理
源代码如下:
# 改进版, 增加了 .strip()方法的使用 # coding=utf-8 # urllib是用于获取网络资源的库,python3自带 # 此处的request是由Request类创建的一个实例对象 import urllib.request # 调用request对象的urlopen()方法 , 传入url参数 file = urllib.request.urlopen("http://www.baidu.com") # readlines()方法逐行读取整个文件到一个列表 # 注意: .readlines()方法会把字符串前后的空白字符都抓进来, 可用.strip()方法去掉 file_list = file.readlines() # 用for循环和if条件语句来遍历读取列表的前200个元素 i = 0 for file_per in file_list: i += 1 if i <= 200: print(file_per.strip()) # str.strip(): 去掉字符串前后的空白字符 else: break
以上是关于Python爬虫 - 爬取百度html代码前200行的主要内容,如果未能解决你的问题,请参考以下文章