python超精简博客园爬虫(果然比C#好用的多)
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python超精简博客园爬虫(果然比C#好用的多)相关的知识,希望对你有一定的参考价值。
无意间看到了网上python爬1024的文章,就想着晚点自己去撸一个全自动小电影下载器(就不用每次选半天了),上班挂着,下班回去就可以看了(身体已经被妹纸掏空了,还看),于是自己先试着写一个简单的爬虫,目标自然是博客园:使用简单的正则表达式匹配,当然也可以使用网上广泛使用的BeautifulSoup解析网页
import requests import re baseUrl = "https://www.cnblogs.com/" html = requests.get(baseUrl).text items=re.findall("_blank\\">(.+)</a></h3>",html) for i in items: print(i) print("") print("over")
爬的内容非常简单,就是首页上的文章列表,虽然C#也可以做,但是感觉python真的是精简,几句代码就搞定了,厉害了word python!效果如下
已经等不及下班回去开干了!