数据分析之北京年轻人苟活指南
Posted 大数据前沿
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析之北京年轻人苟活指南相关的知识,希望对你有一定的参考价值。
作者 l 二胖
很久之前二胖就抓了一波北京的房价信息,但因为比较懒,一直没有做统计;加上很久没有写数据分析相关的文章了,正好最近爆出很多恶中介瞎炒房租的新闻,二胖就一并分析分析。
本文主要从两个方面入手:
一是北京租房数据分析;
二是北京房价数据分析。
好,废话不多说,直入正题。
一张图看尽北京发展
下图中每一点代表北京的一个小区。二胖根据小区的建设时间进行了一定的区分,即在一个确定的时间点下,如果该小区的建设年代早于设定的时间点,那么它就会出现在该图对应的亮点图中。
1949年-2018年北京小区的建设情况
北京从1949年新中国成立之时的几个小区发展到现在的上万个小区,仅用了几十年时间。【注:抓取的数据量有限,不代表北京小区个数的真实数量级】
北京楼房类型
除对小区建设的年代进行了统计外,二胖还整理了一下北京各个小区楼房的建筑类型。
北京各个小区楼房的建筑类型
相信大部分人和二胖一样,对楼房的建筑类型并不太了解,所以二胖查了一下相关的资料。
由于北京最多的是板楼和塔楼,所以二胖就只介绍这两种类型的楼房。
板楼:像学校宿舍楼那样一栋楼很多个单元。
板楼示意图
而塔楼就是像塔那样,独栋且很高的楼房,如世贸大厦。
北京是一个很有年代感的城市,楼房多以板楼为主,和广州、深圳等其他一线城市相比,高楼大厦并不算多。
北京房租到底有多贵?
二胖趁着周末抓取了租房平台上的数据,数据量并不是很大,只有几千个小区。数据的更新信息截止到本周六,即2018年8月25日。
因为每次发文章都有小伙伴看得不认真,这里再强调一下,这是小区的分布密集程度图,而非租金的价位热力图。
截至18年8月25日北京小区分布的热力图
从上图可知,本次抓取的数据样本多集中在北京城区五环内,以及部分昌平回龙观地区、通州区等地的数据。
只有样本的分布当然看不出来租金到底有多贵,为了展示更多的数据,这里二胖先用一个词云图来展示——不考虑房屋面积的情况下,在北京租一间房大约需要多少钱。
下图中的数字代表租一间房的月租金,数字的个头越大,表示这个价格出现的次数越多。
北京租一间房的月租(尺寸越大代表价格越普遍)
北京的房租已经高到超乎二胖的想象,如果说租房一个月就要花掉几千元甚至上万元,那我们需要月挣多少才能在北京苟活下去呢?
只看月租金,而不看房屋面积的统计是在耍流氓。
下面来看更具体的数据,在北京租房平均每平米需要花费多少钱?
以下是二胖所抓取的数据中房租最高的10个小区,Top1的小区每月每平米需要花费622元的租金。
也就是说,如果你租一个10平米的小房间,你每月就需要支付6220元的房租。
北京每平米月租金最贵的十个小区
下图是北京各区每平米每月需要花费的租金平均值。
北京各区租房每平米的平均价格
可以看到,海淀、西城、东城的房租都特别贵,一平米要100多元每月。
为了让大家看得更直观,二胖又做了个租金价格地理热力图,下图的可视化参数仍是各个样本的每平米租金价格。也就是说,每平米租金价格越高,该区域的热力图颜色越暖。
北京每平方米租金热力分布图
北京东城区和西城区的租金高毫无悬念,二胖也不过多解释了。
海淀区租金高或许有部分同学不太了解:
海淀有很多互联网企业,而程序猿们的收入较高,租金是硬生生被人给抬起来的;
海淀有很多牛逼的神级高中,有些家长为了能让孩子在海淀念书,不惜花重金买下或者租下那些学校旁边的小破楼。
总之,想在北京苟活下去,工资就一定得高。如果租不起房怎么办?
那就长痛不如短痛,买房吧。
北京房价到底有多贵?
我们再来看看北京买房要花多少钱。先来一张3D可视化图来看看北京的房价分布吧。
北京房价分布图(红线越高代表房价越高)
可以看到,北京的房价分布十分不均匀。尤其中心城区的房价特别贵,并且二胖最好奇的是中间那两个直飞冲天的小区是哪两个,也许是四合院?
由于时间有限,房价部分二胖并没有抓取最新的数据,使用的是去年5-12月的数据,但是鉴于北京今年的房价相对稳定,还有轻微的下降趋势,所以直接用去年的数据也无妨。
下图是北京各区2017年5月-12月的房价走势,最上面那条线是西城区,平均房价已经妥妥过10万了,而最下面的那条线是密云区,房价也早已过两万。
哎,租不起房,更买不起房,买个100平米就得几百上千万,对拿工资的老百姓来说,买房几乎是不可能的事情。
北京各区2017年5月-12月平均房价
下图是北京2017年12月份各区的房价,具体到数字,大家随意感受一下吧。
北京各区2017年12月平均房价
分析至此,以上观点仅供参考。
话说回来,再怎么分析,北京的房价就在那,不会改变。
作为在北京苟活的年轻人中的一员,如果哪天坚持不下去,二胖会选择离开,毕竟北上广留不住每一个年轻人。
二胖早在今年初就写下了 这篇文章,希望在北京混不下去的时候,家乡还能张开怀抱欢迎我。
年轻人,如果想在北京“苟活”,一定要坚强!
技术分解
数据抓取:scrapy+redis 分布式爬虫
数据可视化:echarts,maptalk,ElasticSearch
存储:MongoDB,ElasticSearch
其实ElasticSearch是一个特别好的数据分析工具,可以做搜索引擎、统计工具,也可以做数据可视化工具。
二胖之前也专门写了两篇文章来介绍它,一篇介绍它的作用,一篇介绍它的部署,不过大家似乎对其不是特别感兴趣?
大数据前沿
关注二胖,让我们一起苟活
长按二维码关注二胖
以上是关于数据分析之北京年轻人苟活指南的主要内容,如果未能解决你的问题,请参考以下文章
大数据后浪逆袭指南|Apache Spark和Apache Flink硬货