豆瓣读书 Top 250书单

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了豆瓣读书 Top 250书单相关的知识,希望对你有一定的参考价值。

参考技术A 我们曾整理了豆瓣读书 Top 250书单,集合了长久以来豆瓣网友关注度最高的250本图书,爱读书的朋友绝对应该人手一份!

 Top10 

追风筝的人

豆瓣评分:8.9

豆友 @ 九尾黑猫  :

“为你,千千万万遍。”我想,小说描写了一种最为诚挚的情感,而且它让你相信有些东西依然存在。在这个没有人相信承诺的年代,让人再次看到承诺背后那些美丽复杂的情感。这是一本好看的书,它让你重新思考。

解忧杂货店

豆瓣评分:8.5

豆友 @ Miffygaga :

对于东野来说,这是一本温柔的小书。可能也只有东野,能把看似这么多温柔美好的小故事,巧妙精致地联接起来,读到最后一分钟,才恍悟原来前后都是有必然联系的。人生如此奇妙,不好好过又对得起谁。

小王子

豆瓣评分:9.0

豆友 @ 眠去 :

十几岁的时候渴慕着小王子,一天之间可以看四十四次日落。是在多久之后才明白,看四十四次日落的小王子,他有多么难过。

白夜行

豆瓣评分:9.1

豆友 @ 柏邦妮 :

昨晚两点开始看《白夜行》一直看到天亮看完。展现出东野圭吾对复杂叙事的掌控能力,精彩绝伦。但是我最欣赏的还是他对恶的动机,那种孜孜不倦的探求,一直向灵魂黑洞最深处走去。他书写的恶往往不是凡俗的恶,而是一种提纯的,高智商的,有分寸的,肃穆的恶。那种恶最终会让人动容,和纯粹的善一样。

围城

豆瓣评分:8.9

豆友 @ 失控芭乐 :

有人说匠心太重,我倒喜欢这样的匠心。令人捧腹的句子不在少数,爱情与生活在调侃中被扒去鲜亮的外壳,讽刺到骨子里,真是又痛又要看下去。这书就是真理,赤裸裸啊。

三体Ⅰ

豆瓣评分:8.8

豆友 @小海 :

“刘慈欣对于中国科幻,就如同姚明对于中国篮球”“刘慈欣凭借一己之力将中国科幻提高到了世界级水平”。读完才知,名不虚传。

嫌疑人X的献身

豆瓣评分:8.9

豆友 @ LOOK :

被震爆了。西方作家打死也写不出来的一类小说。还不是纯东方的,而是纯日本的。石神的情感模式和日本武士道剖腹、神风敢死队自杀式攻击的献祭式情感模式是完全一样的。瞬间的喜悦。瞬间的悟道。极致的浪漫。

挪威的森林

豆瓣评分:8.0

豆友 @ 鬼 鬼 ™ :

重读一遍的心境完全不同,有隐忍的痛苦,“哪里会有人喜欢孤独,不过是不喜欢失望”,相比上学时期可能现在看来感触更深,总有人逼迫你成长,任何事情也总要有代价。

活着

豆瓣评分:9.3

豆友 @ 伊莎贝尔·慕卿 :

看见了人生悲苦,看见了底层人民的乐观和坚强,看见了生命的柔韧,看见了命运和岁月那不动声色的力量。

百年孤独

豆瓣评分:9.2

豆友 @ 一位母猪 :

看第3遍开始越来越让我惊艳的已不是马尔克斯而是译者了。太牛逼了!这样的文字就算是母语创作也属上乘。尤其倒数第二代布恩迪亚在飓风中破译羊皮卷的全书结尾,笔触磅礴,美到让人惊怖。

豆瓣读书数据分析-python

参考技术A 豆瓣读书数据分析-python

(思路来自课程老师绿树)刚刚学完python数据分析的课程,决定做一个有关python数据分析的小项目,思来想去,还是决定分析豆瓣的数据,因为豆瓣是python写成的。用python爬虫抓取数据较为方便,比一般网站少很多页面bug问题,而且豆瓣上的数据量大概在million这个量级,算是算太大的,但也不小。正好手里有一份跑出的大概300多万的数据,直接开始分析。

首先导入数据,将数据赋给一个dataframe,取名为douban

douban=pd.read_table("douban.dat",sep="::",names=["user","book","rate"])

看一下这个数据的描述 

总共3648104行,其他的诸如平均数,中位数的值,是豆瓣书籍的链接后缀,并无实际意义。

然后关于豆瓣读书用户

user_count=douban.groupby('user').count()

user_count=user_count.sort('book',ascending=False)

、我们发现共有38万多读者,计数最多的一位eastwolf东狼,真的很厉害,一共写了4000多的书评。不过我们不排除这是个机器人或者公众号,因为4000度书评,就算一天看一本书,也要写11年,而豆瓣创建才不过11年。有点假,不过这个问题我们暂且不谈,仅从数据来看,第一名最爱读书的书霸,就是eastwolf了,大家鼓掌。

然后我们再来看一下书籍的信息

看一下描述

最受欢迎的书有2071个书评,平均每本书大概有45个书评。

看一下具体情况

我们挑出书评最多的10本,找到图片,就是以下这10本书

可以发现由于不同出版社不同翻译的问题,10本书实际是4本,豆瓣果然是文艺青年聚集地,《小王子》《追风筝的人》《活着》几乎就是文艺青年必备了。 

  豆瓣做为文艺青年聚集地,本身用户属于素质较高的群体。里面分很多小组,读书,电影,音乐,算是给大家找志同道合之友的好地方。关于读书这个方面,在大家都很爱读书的基础上,我们可以用户进行聚类分析。依靠的根据是对书籍的打分,这样来计算不同用户之间的距离。因为读的书目越相似,对同一本书打分结果越接近,说明价值观越相同,找出这样的相似者,就能给用户推荐一下潜在的‘同志’,算是给豆瓣增加一个社交功能了。

  首先我们把用户信息和书本信息结合,因为考虑到大部分书籍用户之间交集为空,而且我的电脑的处理能力有限,所以截取了用户和书籍的前100进行分析,这样得到一个新的dataframe

然后我们建立邻近性矩阵

ubrcore=doubancore.pivot('user','book','rate') 

即使在取前100的条件下,依然大部分是空白,为了能够计算,我们把空白处替换成0.

ubrcore1=ubrcore.fillna(value=0)

然后对要进行距离计算,由于本身对书本的打分在1到5之间,纯粹的大小差距并不大,所以我们更多的考虑在方向上的差异,所以用余弦距离来反应不同用户之间的差异性。

 构建公式,并将计算结果给userdistdf这个dataframe

Userdistdf结果如下

最像用户的就是他自己,余弦距离都是1。其他人只能是部分相像,果然人生得一知己难啊。不过知己找不到,我们可以给用户找10个部分相像的‘同志’

构建函数

试一下

Bingo,成功!!!!

这样,我们可以为用户qdmimi19810920找到了10个志同道合的‘同志’了。

以上是关于豆瓣读书 Top 250书单的主要内容,如果未能解决你的问题,请参考以下文章

怎么看豆瓣TOP250

豆瓣电影top250的电影都有哪些?

IMDB Top 250 与豆瓣电影250的比较?

爬取豆瓣电影Top250和和豆瓣图书

说说你在豆瓣TOP250里怎么也不喜欢的电影有哪些?

Forward团队-爬虫豆瓣top250项目-需求分析