具有最少磁盘操作的大数据 - MapReduce

Posted

技术标签:

【中文标题】具有最少磁盘操作的大数据 - MapReduce【英文标题】:Big Data with Minimal Disk Operation - MapReduce 【发布时间】:2013-04-27 21:17:36 【问题描述】:

我需要处理远程服务器上数千个文件中的 10TB 文本。我想在具有 3GB RAM、50GB HDD 的本地机器上处理它们。我需要一个抽象层来按需从远程服务器下载文件,处理它们(mapreduce)然后丢弃它们,加载更多文件。

关于 HDFS,我需要将它们加载到 HDFS,然后事情应该很简单,但我需要自己进行内存管理。我想要一些能解决这个问题的东西。类似于 HDFS 中的远程链接,或 HDFS 中指向远程文件的符号链接,该远程文件下载它们并将它们加载到内存中处理它们,然后丢弃它们,然后转到更多文件。

所以现在我使用 Amplab spark 为我做并行处理,但在这个处理级别上它放弃了。

我想要一个像 spark 这样的单衬里:

myFilesRDD.map(...).reduce(...)

RDD 应该处理它

【问题讨论】:

【参考方案1】:

Map/Reduce 用于分解一组机器上的工作。听起来你只有一台机器,你的本地机器。您可能想查看 R,因为它具有通过网络加载数据的内置命令。开箱即用,它不会为您提供您所描述的类似虚拟内存的外观,但是如果您可以容忍编写迭代循环并自己加载数据块,那么 R 不仅可以为您提供远程数据加载您寻求,R 丰富的可用库集合可以促进您可能需要的任何类型的处理。

【讨论】:

以上是关于具有最少磁盘操作的大数据 - MapReduce的主要内容,如果未能解决你的问题,请参考以下文章

RAID磁盘整列之RAID5

RAID磁盘整列之RAID O

打怪升级之小白的大数据之旅(五十二)<MapReduce框架总结与扩展知识点>

大数据中的Spark指的是啥?

基于磁盘的Kafka为什么这么快

HDFS读写原理