hadoop如何存储数据和使用MapReduce?

Posted

技术标签:

【中文标题】hadoop如何存储数据和使用MapReduce?【英文标题】:How does hadoop store data and use MapReduce? 【发布时间】:2015-04-26 19:18:30 【问题描述】:

当我试图了解hadoop 架构时,我想弄清楚一些问题。 当有大数据输入时,HDFS会将其分成许多chuck(每个chuck 64MB或128MB),然后多次复制到内存块中,对吧?

但是,我仍然不知道MapReduce 在哪里工作。它是用来分割和合并数据来存储的吗?或使用它返回一些有用的输出?

【问题讨论】:

【参考方案1】:

在 HDFS 中存储数据与使用 MapReduce 范例分析数据是完全不同的事情。

当上传到 HDFS 时,大数据文件被分割成块存储在数据节点中,每个块被复制的次数与配置的复制因子一样多(默认为 3)。数据拆分就像将文件除以配置的块大小一样简单。

如前所述,MapReduce 是一种在分析大数据文件以获取增值信息时的编程范例。简而言之,每个文件块都分配给一个映射任务,以便所有映射器对块执行相同的操作;完成后,将输出的部分结果发送到 reducer,以便以某种方式聚合数据。

【讨论】:

谢谢。所以,就是这个意思。如果我只想将文件存储到 HDFS,它不会使用 MapReduce。当我尝试分析大数据时,它会出现 MapReduce,对吧? 对,MapReduce只在分析数据时使用。 好的,非常感谢

以上是关于hadoop如何存储数据和使用MapReduce?的主要内容,如果未能解决你的问题,请参考以下文章

hadoop mapreduce开发实践之输出数据压缩

大数据分析:结合 Hadoop或 Elastic MapReduce使用 Hunk

大数据分析:结合 Hadoop或 Elastic MapReduce使用 Hunk

Spark:超越Hadoop MapReduce

Spark:超越Hadoop MapReduce

Spark:超越Hadoop MapReduce