知乎用户群分析--又双叒叕一只爬虫爬了知乎20万用户

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了知乎用户群分析--又双叒叕一只爬虫爬了知乎20万用户相关的知识,希望对你有一定的参考价值。

一直想趁着知乎还比较开放爬点数据做分析,因为懒延期至今。

爬虫由Java实现,放在服务器上跑了三四天,可以说是龟速了,毕竟爬虫和反爬虫就是应该友好相处的嘛,反反爬虫和反反反爬虫互相伤害就没意思了。

从我的关注列表向外爬了两圈,数据是上周(2017,9.11))的,所以下面的报道可能和实时数据有些偏差。

本来想做图论分析,但是应该就是个简单的小世界网络,结果也不好可视化,所以就只做了一些简答的数值分析。

放上源码,代码逻辑在Readme里有写

Github:pokerfaceSad/ZhihuSpider

 

1.男女比例

技术分享

还是汉子占多数

2.用户获得赞同数量分布

技术分享

仰望赞同数大于100万的12位大佬

3.获得赞同数Top10

技术分享

 

  1. @张佳玮 3881887
  2. @Seasee Youl 1577849
  3. @马前卒 1490940
  4. @vczh 1470443
  5. @唐缺 1468457
  6. @鬼木知 1371725
  7. @肥肥猫 1368270
  8. @朱炫 1295927
  9. @ze ran 1269743
  10. @豆子 1225418

4.粉丝数Top10

技术分享

  1. @张佳玮 1426823
  2. @李开复 1013888
  3. @黄继新 809900
  4. @周源 777401
  5. @yolfilm 768063
  6. @丁香医生 755301
  7. @张亮 720349
  8. @张小北 666883
  9. @李淼 662630
  10. @朱炫 652258

5.回答Top10

技术分享

 

  1. @Phil 17909
  2. @vczh 16373
  3. @王若枫 13111
  4. @浪琴 12764
  5. @李东 11808
  6. @柴健翌 11281
  7. @zhen-liang 11164(已被知乎停用,看了下回答,可能是某个搞机器学习的大佬弄出来的机器人)
  8. @赵钢 11137
  9. @另一只袜子 10146
  10. @luvian zhang 9833

6.提问Top10

技术分享

  1. @阿混 3154
  2. @David Chang 2685
  3. @玉箫沙 2535(已被封号,据说是被续了)
  4. @Howard Dominic 2528
  5. @图灵Don 2178
  6. @歆盐 2060
  7. @程瀚 1756
  8. @张亮 1755
  9. @张醒 1656
  10. @fudanboy 1530

还有一些没有可视化的数据

7.文章数Top10

  1. @扑克投资家-林辉 1639
  2. @王佳伦 1620
  3. @马力 1507
  4. @张十三 1390
  5. @军旗猎猎 1364
  6. @陈希 1181
  7. @不鳥萬如一 1170
  8. @耿怀民 1155
  9. @嘶吼RoarTalk 1096
  10. @周永 1082

8.被收藏数Top10

  1. @寺主人 1805631
  2. @下厨房 1625157
  3. @张佳玮 1194602
  4. @曾少贤 177151
  5. @肥肥猫 1026440
  6. @恶膜的奶爸 992186
  7. @warfalcon 804395
  8. @Jennyyy 747445
  9. @白诗诗 736685
  10. @朱炫 678335

Github

Github:pokerfaceSad/ZhihuSpider

求Star

以上是关于知乎用户群分析--又双叒叕一只爬虫爬了知乎20万用户的主要内容,如果未能解决你的问题,请参考以下文章

MATLAB | 全网唯一! 又双叒叕一种弦图绘制

MATLAB | 全网唯一! 又双叒叕一种弦图绘制

如何爬取了知乎用户信息,并做了简单的分析

又双叒叕重磅推出!DMC第四讲:文本挖掘

测试用例又双叒叕失败了,NLP帮你

月薪30k的资深程序员用Python爬取了知乎百万用户!并数据分析!