用数据可视化分析「 单身 」原因

Posted 文字控

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了用数据可视化分析「 单身 」原因相关的知识,希望对你有一定的参考价值。



01


姓名:公子白

性别:男

坐标:北京,人民大学,大四,单身已四年


起因

这个假期在家被长辈问的最多的问题就是“怎么还没找女朋友啊?”,我一般就从“找了找不到啊”,“作业太多没时间找”,“班上(学校)女生少啊”中随机选一个回答。

被问多了之后,并没有感到烦,反倒是激起了我对这个问题认真的思考和探索,于是便有了此文来对此做一个初步的分析和回答。当然,考虑到我还要继续在人大读三年,这篇文章还为我将来写《数据可视化之我在人大单身七年的原因》打下坚实的基础。

用数据可视化分析「 单身 」原因

02


方法论:为何选择数据可视化?

(略)


03


 不患贫而患不均

大一第一个学期的时候,有高中同学寄明信片给我,主要内容如下:

用数据可视化分析「 单身 」原因

(班长大人好邪恶,早有先见之明,所以才选择去美女如云的人大么?难怪每天在群里春意盎然)

讲真,我当时填志愿的时候真的是只知道人大经济学科好,并不知道人大女生多这个情况。

人大女生多是事实大家都知道,而且都是美貌与智慧并重,但凭女生多这一点就认定一定能找到女朋友就错了。不信我们看看人大女生分布的热力图:

用数据可视化分析「 单身 」原因

这是利用我在人大四年生活目测的数据在百度地图上画出来的,红色越深,代表女生分布密度越高。乍一看,感觉一片红红火火,形势喜人。但是你知道我住哪里吗!!????

大家肯定注意到了图的左上部分那个位于深红区域中心的白色方块了吧,那是知行区唯一的男生宿舍。放心(* ̄︶ ̄),我当然不可能住那里。

你有没有看到到西1门?没看到?没关系仔细找找。找不到?好吧, 我提示一下,它就在地图最左边偏下的地方,在人大校园的最最最最西南角,自古女生人迹罕至。

美国著名革命家马丁·路德·金说过:

One hundred years later, the PinYuan1er lives on a lonely island of poverty in the midst of a vast ocean of material prosperity.One hundred years later, the PinYuan1er is still languished in the corners of RUC society......
一百年后的今天,品园一楼的人民仍生活在物质充裕的海洋中一个穷困的孤岛上,100年后的今天,品园一楼的人民仍然蜷缩在人大社会的角落里……

以后大家就请大家不要再说人大这么多女生你还找不到女朋友这种话了,谢谢理解。


04


我到底有多宅?

有人肯定会说,你们寝室没有女生这特么不是废话吗,但你又不是没有脚,不会去有女生的地方?

不会

其实我大三之前还算是一个认真的学生,按时起床上课写作业复习考试。自从保了研,我就过上了腐朽堕落的退休生活,典型表现为一觉睡到七八九十点。这样很不好(但是真的很舒服),师弟师妹不要学我,然后又没什么课了,于是就一直躺待在寝室了。

口说无凭,我决定用去年12月份数据来说话,我的手机上的计步软件会记录我每个时间段的行走步数,一张典型的全天宅寝室的步数分布图如下:

用数据可视化分析「 单身 」原因


可以看到,基本就早中晚三个时间点出去吃了一下饭(可以晚起,但是早饭不能不吃,饿得慌)。

实习时典型的步数分布如下:

用数据可视化分析「 单身 」原因

步数分布的特点是早晚步数多(上下班需要走路),而其余时间步数很少。

而在外浪的步数分布图是这样的:

用数据可视化分析「 单身 」原因

再结合我的回忆,课表等等,我绘制了我去年十二月每天各项活动所花时间的饼图,如下:

用数据可视化分析「 单身 」原因


可以看出,除了周三周五这两天需要实习外,我在寝室的时间基本都在20小时左右。

噫吁嚱,注孤身。


05


明修栈道,暗度陈仓?

我狗儿子说过,有的宅男在寝室见过的女生不比他人少,虽然我不太懂这句话的原因,但我猜他是指在用微信撩妹吧,于是我就分析了一下我的微信好友和聊天情况,我把认识的303个微信好友进行了分类,结果如下:

用数据可视化分析「 单身 」原因

注:

  • 球的大小映射人数,此类别的人数越多,球就越大。

  • 为了防止大家看错,我特意用下划线把一些字分开了。

看到这幅图,发现几个我没有意识到的问题:

  • 师兄师姐的人数显著多于师弟师妹,这大概是因为我平常习惯性抱大腿的结果吧

  • 大环境对个人还是有影响的,我在初高中时的男性和女性好友之比为2:1,到了大学,这个比例被掰到1:1

  • 我几乎不认识几个本院其他专业的女生

可以看出,我的好友列表非常正常,即便这样,我爸妈还是逼问我有没有背着他们找女朋友,在这种情况下,我只好使出绝招了:公布我所有的聊天记录

狗儿子听到这个消息急忙赶来制止我
狗儿子:你赶紧把聊天记录里我的床照删掉。
我:好,你先把刀放下。狗儿子你是指哪张?这一张?

用数据可视化分析「 单身 」原因


我:咦,照片怎么过不了扫黄打黑办的审核?
狗儿子:哦,通不过审核啊,那就没事了,刀还给你。

鉴于出现了这种情况,我决定换种思路,大家分析聊天记录都是集中于文字,用自然语言处理(Natural Language Process)的方法,余以为没必要那么麻烦,微信聊天中最重要,最能体现情感的聊天材料是什么?不就是红包吗?

试想,一句多喝热水和一个520的红包孰轻孰重?线上尬聊和线下吃喝(由转账红包反映)哪个更能增进感情?

于是我统计了2017年我的红包收发情况(不包括群发)

用数据可视化分析「 单身 」原因

红包金额排第一二的自然是我的金主妈妈和金主爸爸,其次是室友张,室友孙和我狗儿子,这反映了我们平时经常在一起吃喝**。总而言之, 前八名里面除了我老妈和某位亲戚外,就没有异性。

经鉴定,是真宅。


06


内忧外患

我人的姑娘内慧外秀是全北京城都知道的(引得我都好想把横亘在我和姑娘之间的那个“人”去掉),自然少不了外面高校的觊觎,品知人大尚存的时候,经常能看到海淀区的那一片理工科高校男生来此发交友贴。而当我搜集了每个高校的一届本科生人数和男女比例之后,更是忧心忡忡,大家看图:

用数据可视化分析「 单身 」原因

哦,不好意思传错了,是这张:

用数据可视化分析「 单身 」原因

:在南丁格尔图中,男女人数之比映射为扇形的半径之比

情况不言而喻,一目了然。

最幸福的应该是北邮的男生了,周围有三所女生远多于男生的高校。

大家都知道,现在写论文,没个计量模型都不好意思发出去,我也免不了俗,决定弄个模型来量化一下这种外患。

每一个优美的模型都会有几个简单而明了的假设,为了让我的模型看起来像模型,我也要有几个假设,如下:

  • Assumption 1:所有学生都有谈恋爱的意愿。分析就业市场时我们对劳动力的定义中有一点就是没有劳动意愿的人没有工作是不能称失业的,同理,没有谈恋爱意愿的人理论上来说也不应该纳入分析,为了分析简便,我们做此假定。

  • Assumption 2:所有的学生都首先偏好本校的异性,且视外校异性是同质的,不会对某个学校的异性有更大的偏好。

  • Assumption 3:无外部力量介入恋爱市场,如父母干预等。

我觉得比起很多经济学模型中的假设来说,这三条假定非常的reasonable。

我决定采用一个类似于重力模型(Gravity Model)的模型来研究这个问题。

学校 i 的质量 mi 定义为:

mi =malei -femalei

学校 i 和学校 j 之间的距离 rij  定义为:

rij  =两校之间公交所花时间

距离为什么要用时间而不是物理距离来衡量?我们这种单身狗就不用操异地恋的心了。

最后,外患程度 dij  就等于:

d ij  =mi*mj / rij

为什么是这个形式呢?我们比照着万有引力模型来理解,引力是与两者质量之积成正比,与距离成反比。在这里,分子不可能为两校总人数之积,因为对于绝大部分男生(女生)来说,男生(女生)是不会产生吸引力的。同时根据假定2,一个学校的男生(女生),只有当超过本校女生(男生)数量时,才会对外校女生(男生)产生吸引力。

为了减轻我画图时的代码量,我只选取人大,北大,北理,北航,清华,中财,政法七所学校进行计算,结果如下:

用数据可视化分析「 单身 」原因

:红色代表女生有盈余,深蓝色代表男生有盈余,圆圈大小和盈余人数成正比,绿色线代表互相吸引,橙色代表排斥,线的粗细映射吸引力或排斥力的大小。

这幅图里最引人注目的就是北航了,贵校男生真多,是所有“女性学校”最大的“外患”,同时差不多是所有“男性学校”最大的“排斥”对象,这是要上天的节奏啊。

还记得有次北航的大师兄邀我去他们学校,碰到下课,成千的男生从教学楼鱼贯而出,我已经很久没见过这种宏大的场面了。

对于人大而言,外患程度的大小是北航>北理>清华>北大。

感觉压力好大。


07


学习到底忙不忙?

我回答怎么还没找女朋友的一个借口是人大学业重,这可不是乱说,是有历史典故的:

用数据可视化分析「 单身 」原因

当然,时代一直在变,而且具体到学科、个人,学业的繁重也是不一样的,还是得具体分析。于是我找出了我七个学期所修的学分和成绩

用数据可视化分析「 单身 」原因

有同学马上指出问题来:你这个图怎么GPA的那根轴没有标刻度啊?
我觉得你这个问题提得很好,来来来,你站起来我们出去练练讨论讨论。

站一旁的狗儿子也出来帮我说话:“这位同学你难道不知道问人成绩就如同问男生的长……”,打住打住,我这是在写学术论文,狗儿子你别开车。

可以看出,第二三四个学期的学习任务还是不少的,成绩也都在平均线左右,这个时候用学业重来作为搪塞的理由还是说得过去的,但是第六七个学期,学分只修了一点点,成绩又那么低,可见学习压力和谈恋爱没什么关系。

想起来这个寒假我妈在我临行前的嘱托:“你这个学期没什么课,就去谈个恋爱”


08


一个致命的逻辑Bug

无论我上面的论证再怎么精密完美,也始终掩盖不了这么一个BUG的存在:我的室友张早在大一就脱单了。

同处一个学校、一个专业、一个班级、一个宿舍、一个性别,为什么他就早早脱离了单身狗的行列?不解决这个问题,我这篇文章就没法在逻辑上自洽,每天晚上躺在床上,我都会呆呆凝望着他的光背,陷入深思。

直到根据我的观察,画出了这个图:

用数据可视化分析「 单身 」原因

虽然我们同在一个屋檐下睡觉,但人与人之间还是有本质差别的。

室友张除了成绩这种无足轻重的东西,在其他方面都成碾压之势,首先说颜值,用面若中秋之月,色如春晓之花,,鬓若刀裁,眉如墨画,面如桃瓣,目若秋波来形容他是毫不为过。但是这个图描述的是现在这个时间点的情况,以前并不是这样的(说起来都是泪啊)。

我看了室友张从小到大的照片,然后画出来如下的发育曲线:

用数据可视化分析「 单身 」原因

:数字指年龄,球的大小代表颜值高低

又有人在问:“你这个图怎么横坐标和纵坐标都没有刻度的?”

你再问这个问题信不信我打死你?

从身高的维度来看,室友张的发育程度大概比我快两年,体重则大概是五年到三年。

我们重点关注颜值,毕竟这是个看脸的年代。

在一岁到九岁这个猥琐发育的阶段,我和室友张的颜值没有太大的变化,紧接着,我开始爆发了,在红蓝双龙buff加身的情况下大杀特杀,女生明确表白的唯一经历就发生在这个阶段,而此时的室友张却在出肉装,体重蹭蹭蹭地往上飙,颜值唰唰唰地往下掉。

然而万物都是此消彼长的,自从室友张有了女朋友以后,开始注意控制体重了,开始注意打扮了,而我则在青春痘和高中时期把脸吃圆的双重暴击下一蹶不振成了今天的样子。

用数据可视化分析「 单身 」原因

在恋爱知识方面,室友张更是我的启蒙导师。虽然他刚谈恋爱的时候蠢得一逼,还是女朋友先表的白(这点让我们诟病至今啊),但是他进步神速,一日千里啊。在我懵懵懂懂追女生的时候给我恶补知识,各种心理学生理学的知识讲得是深入浅出,娓娓道来,老母猪戴胸罩一套又一套,还给我出馊谋划策,gg之后更是和我长谈人生,引导我走出泥潭,遁入寂静,皈依佛门,至今感激涕零,无以言表(黑人问号.png,怎么感觉不对劲啊)。

我唯一胜过他的一点就是学习成绩了,但是学习这东西对谈恋爱来说并没有多大关系啊,谈恋爱难道讨论拉格朗日定理、斯勒茨基分解?至今为止我只和室友、保研面试老师、实习面试老师讨论过这几个问题,还都是男的。

由此观之,个人因素很重要。


09


总结

(略)还是写个总结吧。

用数据可视化分析「 单身 」原因

没女朋友,肯定要找啊,不找没女朋友的。

脱单这方面,脱单是不可能脱单的,这辈子都不可能脱单的。

撩妹又不会撩,就是室友这种东西,才能维持的了生活这样子。

进寝室感觉像回家一样,里面个个都是人才,说话超级好听的,我超级喜欢里面。


10


最后的话

看似正儿八经地分析了这么多,多半是玩笑话,能博君一笑就可以了,其实多半是写在即将毕业之际的回忆吧。

感谢人大四年前选择了我,在这里认出了我失散了18年的狗儿子,有一起吃喝的室友,还有一大堆才华与美貌并重的同龄人,全身都散发着智慧光芒的老师,大多数的你们可能只是像流星一样在我的生活中闪亮出现,却让我的生活变得绚丽多彩,谢谢大家。


-END-

【文字控】中国顶级好文推送平台;鸡汤、暖文、知识掌故、奇葩段子,带您感受阅读的力量。不一样的文字、诠释出不一样的情感!有态度的文章献给有品位的读者。


以上是关于用数据可视化分析「 单身 」原因的主要内容,如果未能解决你的问题,请参考以下文章

店铺营收未达预期,用DataEase开源BI工具分析原因所在

店铺营收未达预期,用DataEase开源BI工具分析原因所在

我们可以用哪些工具做大数据可视化分析?

数据可视化|用帕累托图进行数据分析

Tableau 云端数据可视化分析,造就企业深远竞争优势

爬虫+数据清洗+可视化用Python分析“淄博烧烤“的评论数据