Python实现简单的爬虫获取某刀网的更新数据

Posted 超越梦想

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python实现简单的爬虫获取某刀网的更新数据相关的知识,希望对你有一定的参考价值。

昨天晚上无聊时,想着练习一下Python所以写了一个小爬虫获取小刀娱乐网里的更新数据

[python] view plain copy
 
  1. #!/usr/bin/python  
  2. # coding: utf-8  
  3.   
  4. import urllib.request  
  5. import re  
  6. #定义一个获取网页源码的子程序  
  7. head = "www.xiaodao.la"  
  8. def get():  
  9.     data = urllib.request.urlopen(‘http://www.xiaodao.la‘).read()  
  10.     #解码并去除无用文字  
  11.     str = data.decode("gbk").replace(r"font-weight:bold;","").replace(r" ","").replace(" ","").replace(" ","").replace("\r\n","").replace("#FF0000","#000000").strip()  
  12.     return str[str.find("好卡售"):str.find("20160303184868786878.gif")]#返回指定内容  
  13. #获取一次网页源码并赋值给str  
  14. str = get();  
  15. #print(str)  
  16.   
  17. #定义正则表达式  
  18. #reg = r‘href="(.*?)"style="color:#000000;"title="(.*?)"target="_blank">‘  
  19. reg = r‘href="(.*?)"style="color:#000000;"title="(.*?)"target="_blank">(.*?)</a></div></td><tdwidth=12.5%align=rightnowrap=nowrapstyle="color:#F00;">(.*?)</td>‘  
  20.   
  21. tmp = re.compile(reg);#创建正则表达式  
  22. list = re.findall(tmp,str);#正则表达式匹配  
  23. list = tuple(list)#转换类型  
  24.   
  25. print("一共匹配到%d个"%(len(list)))#输出匹配数量  
  26. #print(list)  
  27.   
  28. for i in range(len(list)):  
  29.     print("当前第%d个:"%(i+1))  
  30.     print("标题:%s\n地址:%s更新时间:%s\n"%(list[i][1],head + list[i][0],list[i][3]))  

以上是关于Python实现简单的爬虫获取某刀网的更新数据的主要内容,如果未能解决你的问题,请参考以下文章

用爬虫抓取网页得到的源代码和浏览器中看到的不一样运用了啥技术?

Python 实现的下载op海贼王网的图片(网络爬虫)

拉勾网爬虫Python代码实现

python爬虫怎么做?

爬取腾讯网的热点新闻文章 并进行词频统计(Python爬虫+词频统计)

如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下)