hadoop中输入了多少数据？

Posted 2023-04-18

技术标签:

【中文标题】hadoop中输入了多少数据？【英文标题】：How huge amount of data is inputted in hadoop? 【发布时间】：2017-06-10 11:30:19 【问题描述】：

我是大数据和 hadoop 的新手。我想知道名称节点、数据节点、辅助名称节点、作业跟踪器、任务跟踪器是不同的系统吗？如果我要处理 1000 PB 数据，数据是如何划分的，谁在做这个任务，我应该在哪里输入 1000 PB 数据。

【问题讨论】：

请分享您到目前为止所尝试的内容。我只是从网站上获得的理论知识。没有实用知识。 【参考方案1】：

是的namenode, dataNode, secondaryNameNode, jobTracker, taskTracker 都是不同的virtual machines（JVMs 你可以打电话给他们）。您可以在一台物理机上启动它们（pseudo/local mode），也可以在不同的物理机上启动它们（distributed mode）。这些都在 Hadoop1 中。

Hadoop2 引入了带有YARN 的容器，其中jobTracker 和taskTracer 被更有效地删除了resourceManager、applicationManager、nodeManager 等。您可以找到更多信息hadoop-yarn-site

数据存储在HDFS (Hadoop Distributed File System) 并存储在blocks，默认为64MB。当数据加载到hdfs 时，hadoop 在集群中以定义的块大小平均分配数据。当作业运行时，代码将分发到集群中的节点，以便每个处理都发生在数据所在的位置，shuffle 和sorting 情况除外。

我希望您对hadoop 和hdfs 的工作原理有大致的了解。以下是一些链接供您以 Map Reduce programmingcluster setuphadoop commands

开头

【讨论】：

好的。如果我必须处理大量数据，我想知道 hadoop 和 hdfs 的工作原理。我应该如何输入它我猜你一定浏览过我分享的所有链接。您可以尝试simple word count，其中解释了如何访问 hdfs 和使用 hadoop 以及 hadoop 的工作原理。

以上是关于hadoop中输入了多少数据？的主要内容，如果未能解决你的问题，请参考以下文章

说到大数据，你对hadoop和Cloudera了解多少？

大约多少半结构化数据足以建立 Hadoop 集群？

大数据分析到底需要多少种工具

Java大数据开发Hadoop(22)-NLineInputFormat案例

深度分析如何在Hadoop中控制Map的数量

Apache pig：检查 cvs 输入中存在多少具有相同数字的行（任意组合）