python+scrapy分析博客园首页4000篇优质博客(图解)

Posted juaoie

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python+scrapy分析博客园首页4000篇优质博客(图解)相关的知识,希望对你有一定的参考价值。

1、侵删

本文数据是获取的博客园首页的4000条数据,为了不对博客园服务器造成压力,所以源码不会公开,在此,敬请博客园官方团队放心。
获取到的数据从2019-7-11到2019-9-12,此数据也不会公开。
由于会涉及到一些博主的数据,所以有博主不愿公开数据,联系我及时删除。

2、先上数据分析结果

写文最多的博主top6 ---->(最勤劳的博主)?(′?`*)

黑白影-->发文54篇
周国通-->发文38篇
宜信技术-->发文30篇
削微寒-->发文28篇
泰斗贤若如-->发文26篇
小世界的野孩子-->发文26篇

技术图片

最受博友们推荐的文章top5 ---->(园子里被大家力推的文章)(≧?≦)?

《漫画 |《帝都程序猿十二时辰》》-->220人推荐
《一文详解微服务架构》-->188人推荐
《.NET Core 学习资料精选:入门》-->155人推荐
《.NET Core 学习资料精选:进阶》-->152人推荐
《【网站公告】.NET Core 版博客站点第二次发布尝试》-->119人推荐

技术图片

被浏览最多次的文章top5 ---->(园子里大家最喜欢看的文章)╰(°?°)╯

《为什么说是时候拥抱.NET CORE了?》-->12660人浏览
《【故障公告】发布 .NET Core 版博客站点引起大量 500 错误》-->11373人浏览
《我在北京这几年(全)》-->11282人浏览
《高速开车换底盘记:Windows 与 Linux 部署都抗住了,但修车任务艰巨》-->9908人浏览
《【网站公告】.NET Core 版博客站点第二次发布尝试》-->9813人浏览

技术图片

被评论最多次的文章top5 ---->(都是博客园团队的文章哦)︿( ̄︶ ̄)︿

《Powered by .NET Core 进展:验证高并发性能问题嫌疑犯 docker swarm》-->408次评论
《【网站公告】.NET Core 版博客站点第二次发布尝试》-->394次评论
《【故障公告】升级阿里云 RDS SQL Server 实例故障经过》-->168次评论
《【故障公告】发布 .NET Core 版博客站点引起大量 500 错误》-->153次评论
《高速开车换底盘记:Windows 与 Linux 部署都抗住了,但修车任务艰巨》-->152次评论

技术图片

文章标题中出现最多的词 -->(大家最喜欢关注的话题)(??????)??
关键字 出现的次数 关键字 出现的次数 关键字 出现的次数
.net 341 java 292 spring 291
python 153 javascript 116 算法 112
sql 100 c# 90 数据结构 73
vue 71 架构 69 面试 57
程序员 54 Linux 52 机器学习 51
数据库 50 前端 49 mybatis 46
爬虫 38 小程序 31 后端 27
react 26 window 24 css 21
mongodb 19 json 18 c++ 18
html 18 大数据 16 阿里 14
php 13 百度 11 angular 3
腾讯 3

技术图片

大家喜欢在星期几发表文章呢? -->(果然周六周日都不发表,工作日职业滑水)(°ー°〃)
星期 一共发表的文章数
星期一 668篇
星期二 649篇
星期三 631篇
星期四 630篇
星期五 570篇
星期六 420篇
星期日 430篇

技术图片

一天中发文高峰期 -->(博客园服务器什么时候最难抗)?(?????)?

技术图片

以上是关于python+scrapy分析博客园首页4000篇优质博客(图解)的主要内容,如果未能解决你的问题,请参考以下文章

Python3爬虫为什么你的博客没人看呢?

Python抓拍博客园文章,并存入数据库

『Python开发实战菜鸟教程』实战篇:爬虫快速入门——统计分析CSDN与博客园博客阅读数据

『Python开发实战菜鸟教程』实战篇:爬虫快速入门——统计分析CSDN与博客园博客阅读数据

『Python开发实战菜鸟教程』实战篇:爬虫快速入门——统计分析CSDN与博客园博客阅读数据

关于博客园首页发布规则的若干猜测