乱谈马拉松和mapreduce的关系
Posted yunzaixiao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了乱谈马拉松和mapreduce的关系相关的知识,希望对你有一定的参考价值。
做为一个业务马拉松爱好者和一个不太专业的IT从业者(十多年开发不会,业务略懂,没形成自己的价值体系,啥啥没心得,得过且过十几年),在马拉松的时候想到了这个对照关系。
那就随便写写,看到了博君一笑。
hadoop的map阶段,是通过transform操作,将数据进行转换,这个阶段数据都是在各个机器上,不进行shuffle操作;
跑步的map阶段,有经验的人都知道,根据起跑位置的差异,会有跑的快的人在后面;等你慢慢追上别人的时候,就是map前面人的配速,当我能跟上你的配速,那就证明map上了;
hadoop的reduce阶段,是将数据化简合并归集的过程,会涉及大量的磁盘和网络数据传输操作;
跑步的reduce阶段,跟上面的解释就差了很远。就是减速。核心思想,你必须减速了。跑步,是自己跟自己的身体、意志力搏斗的过程,会有很多小伙伴在你身边跑过,但你必须清楚自己的身体状态,该减速的时候必须减速,否则对身体的伤害是不可逆的。
写了这么多,就是去年唐山马拉松的时候瞎想的。
使用的mapreduce,是分布式数据平台计算数据的核心;
跑着的mapreduce,是自己跟自己较劲的过程,在前阶段,可以加速,map别人的配速;在后阶段,要懂得减速,根据自己身体情况reduce配速,让自己的身体能坚持跑完全程。
顺便写下,去年唐马算是跑完了,后半程到38公里脚脖疼,走了一小会儿,找志愿者喷了下云南白药慢跑过重点。进4小时。
以上是关于乱谈马拉松和mapreduce的关系的主要内容,如果未能解决你的问题,请参考以下文章