hadoop如何存储数据和使用MapReduce?
Posted
技术标签:
【中文标题】hadoop如何存储数据和使用MapReduce?【英文标题】:How does hadoop store data and use MapReduce? 【发布时间】:2015-04-26 19:18:30 【问题描述】:当我试图了解hadoop
架构时,我想弄清楚一些问题。
当有大数据输入时,HDFS会将其分成许多chuck(每个chuck 64MB或128MB),然后多次复制到内存块中,对吧?
但是,我仍然不知道MapReduce
在哪里工作。它是用来分割和合并数据来存储的吗?或使用它返回一些有用的输出?
【问题讨论】:
【参考方案1】:在 HDFS 中存储数据与使用 MapReduce 范例分析数据是完全不同的事情。
当上传到 HDFS 时,大数据文件被分割成块存储在数据节点中,每个块被复制的次数与配置的复制因子一样多(默认为 3)。数据拆分就像将文件除以配置的块大小一样简单。
如前所述,MapReduce 是一种在分析大数据文件以获取增值信息时的编程范例。简而言之,每个文件块都分配给一个映射任务,以便所有映射器对块执行相同的操作;完成后,将输出的部分结果发送到 reducer,以便以某种方式聚合数据。
【讨论】:
谢谢。所以,就是这个意思。如果我只想将文件存储到 HDFS,它不会使用 MapReduce。当我尝试分析大数据时,它会出现 MapReduce,对吧? 对,MapReduce只在分析数据时使用。 好的,非常感谢以上是关于hadoop如何存储数据和使用MapReduce?的主要内容,如果未能解决你的问题,请参考以下文章
大数据分析:结合 Hadoop或 Elastic MapReduce使用 Hunk