抓取博客园个人主页目录制作
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了抓取博客园个人主页目录制作相关的知识,希望对你有一定的参考价值。
1 #-*- coding:utf-8 -*-
2
3 import urllib2
4 from lxml import etree
5
6 class CrawlJs():
7 #定义函数,爬取对应的数据
8 def getArticle(self,url):
9 print ‘█████████████◣开始爬取数据‘
10 my_headers = {
11 ‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/59.0.3071.104 Safari/537.36‘,
12 }
13 request = urllib2.Request(url,headers=my_headers)
14 content = urllib2.urlopen(request).read()
15 return content
16
17 #定义函数,筛选和保存爬取到的数据
18 def save(self,content):
19 xml = etree.HTML(content)
20 title = xml.xpath(‘//*[@class="postTitle"]/a/text()‘)
21 link = xml.xpath(‘//*[@class="postTitle"]/a/@href‘)
22 print (title,link)
23 # print(zip(title,link))
24 # print(map(lambda x,y:[x,y], title,link))
25 for t,li in zip(title,link):
26 print(t+li)
27 with open(‘bokeyuan.txt‘,‘a+‘) as f:
28 f.write(t.encode(‘utf-8‘)+li+ ‘\\n‘)
29 print ‘█████████████◣爬取完成!‘
30
31 #定义主程序接口
32 if __name__ == ‘__main__‘:
33 page = int(raw_input(‘请输入你要抓取的页码总数:‘))
34 for num in range(page):
35 #这里输入个人主页,
36 url = ‘http://www.cnblogs.com/zhouxinfei/default.html?page=%s‘%(num+1)
37 js = CrawlJs()
38 content = js.getArticle(url)
39 js.save(content)
以上是关于抓取博客园个人主页目录制作的主要内容,如果未能解决你的问题,请参考以下文章