Python爬虫 - 爬取百度html代码前200行

Posted Alick陈彬

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫 - 爬取百度html代码前200行相关的知识,希望对你有一定的参考价值。

Python爬虫 - 爬取百度html代码前200行 - 改进版,  增加了对字符串的.strip()处理

源代码如下:

# 改进版, 增加了 .strip()方法的使用
# coding=utf-8
# urllib是用于获取网络资源的库,python3自带
# 此处的request是由Request类创建的一个实例对象
import urllib.request

# 调用request对象的urlopen()方法 , 传入url参数
file = urllib.request.urlopen("http://www.baidu.com")
# readlines()方法逐行读取整个文件到一个列表
# 注意: .readlines()方法会把字符串前后的空白字符都抓进来, 可用.strip()方法去掉
file_list = file.readlines()
# 用for循环和if条件语句来遍历读取列表的前200个元素
i = 0
for file_per in file_list:
    i += 1
    if i <= 200:
        print(file_per.strip())      # str.strip(): 去掉字符串前后的空白字符
    else:
        break

 

以上是关于Python爬虫 - 爬取百度html代码前200行的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫实战二之爬取百度贴吧帖子

Python——网络爬虫,一个简单的通用代码框架

Python爬虫-爬取百度贴吧

python爬虫之爬取百度图片

零基础掌握百度地图兴趣点获取POI爬虫(python语言爬取)(基础篇)

Python爬虫爬取百度贴吧的帖子