hadoop如何存储数据和使用MapReduce？

Posted 2023-04-18

技术标签:

【中文标题】hadoop如何存储数据和使用MapReduce？【英文标题】：How does hadoop store data and use MapReduce? 【发布时间】：2015-04-26 19:18:30 【问题描述】：

当我试图了解hadoop 架构时，我想弄清楚一些问题。当有大数据输入时，HDFS会将其分成许多chuck（每个chuck 64MB或128MB），然后多次复制到内存块中，对吧？

但是，我仍然不知道MapReduce 在哪里工作。它是用来分割和合并数据来存储的吗？或使用它返回一些有用的输出？

【问题讨论】：

【参考方案1】：

在 HDFS 中存储数据与使用 MapReduce 范例分析数据是完全不同的事情。

当上传到 HDFS 时，大数据文件被分割成块存储在数据节点中，每个块被复制的次数与配置的复制因子一样多（默认为 3）。数据拆分就像将文件除以配置的块大小一样简单。

如前所述，MapReduce 是一种在分析大数据文件以获取增值信息时的编程范例。简而言之，每个文件块都分配给一个映射任务，以便所有映射器对块执行相同的操作；完成后，将输出的部分结果发送到 reducer，以便以某种方式聚合数据。

【讨论】：

谢谢。所以，就是这个意思。如果我只想将文件存储到 HDFS，它不会使用 MapReduce。当我尝试分析大数据时，它会出现 MapReduce，对吧？对，MapReduce只在分析数据时使用。好的，非常感谢

以上是关于hadoop如何存储数据和使用MapReduce？的主要内容，如果未能解决你的问题，请参考以下文章