R+Hadoop处理数据小报告

Posted 悟空平台omics

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了R+Hadoop处理数据小报告相关的知识,希望对你有一定的参考价值。

在以前发的一篇推文《》中,我提到过几点:

  1.  大数据时代,不管咋样,总要了解一下其处理大数据的方法,学习总要有所体验

  2. 玩RHadoop,一定不要用windows系统!!!


依然是本着好奇学习的心态,最近在linux系统中初步学习了RHadoop,以后再继续跟着大神们学习。想要了解更多信息,可参考其官方资料:https://github.com/RevolutionAnalytics/RHadoop/wiki。


在linux系统下,配置运行确实是可以成功的,如下:

1. 暂时没多台电脑,就先用虚拟机模拟着,自己配置了一个master,3个nodes(以后有机会,在整个小集群学学。):


2. 配置好虚拟机以后,先找了个小一点的数据进行测试(数据大概7GB,82082368行29列的数据),如下:

R+Hadoop处理数据小报告

这里面多说一句,7GB左右的数据虽然不大,但是在R语言中,如果你想单机读取数据,比如像我这个数据是csv格式的,建议一定不要用read.csv命令去读,可以使用data.table包中的fread函数去读,效果会好很多。如果你没有现实感受的话,可以先找个1G左右的数据,用这两个命令读取,自己比较体会下。


3. 这里面先做的事情比较简单,就是统计下"航空公司代码_年_月"独自的个数,当然你把这些数据一下子读进内存,然后用table命令去统计下是可以的。不过这里面咱们暂时用RHadoop去算一下:

R+Hadoop处理数据小报告


当然,我们通过这里也可以查看:

R+Hadoop处理数据小报告


任务运行成功,然后计算结果:

R+Hadoop处理数据小报告

耗时6分多钟,计算完毕。整体上看,效果还是不错的。后面更多功能,待我逐渐学习,到时候有啥有意思的结果再跟大家分享。


看来官方诚不欺人:


R+Hadoop处理数据小报告




让人人都方便分析自己的数据!本人致力于打造一款国内较为实用的数据分析云平台(http://www.omicsolution.org/wu-kong-beta-linux/main/),为广大国内有需求的小伙伴提供帮助,也感谢大家关注转发,以求帮助更多的人,谢谢R+Hadoop处理数据小报告



R+Hadoop处理数据小报告

关注一下又不会怀孕,哈哈。。。



平台目前包含的工具(还在持续更新中...):

以上是关于R+Hadoop处理数据小报告的主要内容,如果未能解决你的问题,请参考以下文章

深度:Hadoop对Spark五大维度正面比拼报告!

Hadoop对Spark:正面比拼报告(架构性能成本安全性和机器学习)

如何让Hadoop结合R语言做大数据分析?

如何让Hadoop结合R语言做大数据分析?

大数据Hadoop实验报告

大数据Hadoop实验报告