Python项目之我的第一个爬虫----爬取豆瓣图书网，统计图书数量

Posted 2020-08-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python项目之我的第一个爬虫----爬取豆瓣图书网，统计图书数量相关的知识，希望对你有一定的参考价值。

今天，花了一个晚上的时间边学边做，搞出了我的第一个爬虫。学习Python有两个月了，期间断断续续，但是始终放弃，今天搞了一个小项目，有种丰收的喜悦。废话不说了，直接附上我的全部代码。

 1 # -*- coding:utf-8 -*-
 2 __author__ = ‘Young‘
 3 
 4 import re,urllib  #urllib : 网页访问，返回网页的数据、内容
 5 def my_get(ID):# 封装成函数方便调用
 6     html = urllib.urlopen("https://read.douban.com/ebooks/tag/%E5%B0%8F%E8%AF%B4/?cat=book&sort=top&start="+str(ID))# urllib.urlopen() 打开豆瓣读书的网页   str(ID)--方便页面切换
 7     html = html.read()# 解析返回内容
 8     reg = r‘<span class="price-tag ">(.*?)元</span><a href=".*?" target="_blank" class="btn btn-icon ">试读</a></div><a data-target-dialog="login" href="#" class="require-login btn btn-info btn-cart "><i class="icon-cart"></i><span class="btn-text">加入购物车</span></a></div><div class="title"><a href=".*?" onclick="moreurl\(this, {&#39;aid&#39;: &#39;.*?&#39;, &#39;src&#39;: &#39;tag&#39;}, true, \‘read.douban.com\‘\)">(.*?)</a>‘
 9     reg = re.compile(reg)
10     rel = re.findall(reg,html)  # rel是二维列表
11     return rel
12 
13 ID = 0
14 price = 0
15 fn = open(r‘G:\13_Python-Files\douban.txt‘,"a")# 存放数据的文件的存放地址  a 表示 可以向文件中追加写入
16 while ID<=80:# 根不同页的网址分析得出规律，此处爬取前4页的内容
17     my_list = my_get(ID)# my_list - 存放返回结果
18     for i in my_list:
19         fn.write("书名：%s-----------价格：%s\n" %(i[1],i[0]))
20         price += float(i[0])# 价格是浮点型
21         ID += 1#图书技术
22         print i[0],i[1]
23         print ID
24 fn.write("数量：%s\t总价：%s\t平均单价：%s\n" % (ID,price,"%.2f"%(price/ID)))
25 fn.close()#最后不要忘记关闭文件

结果截图如下：

技术分享

缺憾：有部分数据被漏掉了，继续找原因中

以上是关于Python项目之我的第一个爬虫----爬取豆瓣图书网，统计图书数量的主要内容，如果未能解决你的问题，请参考以下文章

python爬虫入门爬取豆瓣电影top250

python爬虫小白求帮助：爬取豆瓣网的内容不知道哪里出问题了只能print一行？

Python爬取网络数据——豆瓣评论

Scrapy项目 - 数据简析 - 实现豆瓣 Top250 电影信息爬取的爬虫设计

#私藏项目实操分享#Python爬虫实战，requests+xpath模块，Python实现爬取豆瓣影评

23个Python爬虫开源项目代码：爬取微信淘宝豆瓣知乎微博等