hadoop中输入了多少数据?
Posted
技术标签:
【中文标题】hadoop中输入了多少数据?【英文标题】:How huge amount of data is inputted in hadoop? 【发布时间】:2017-06-10 11:30:19 【问题描述】:我是大数据和 hadoop 的新手。我想知道名称节点、数据节点、辅助名称节点、作业跟踪器、任务跟踪器是不同的系统吗?如果我要处理 1000 PB 数据,数据是如何划分的,谁在做这个任务,我应该在哪里输入 1000 PB 数据。
【问题讨论】:
请分享您到目前为止所尝试的内容。 我只是从网站上获得的理论知识。没有实用知识。 【参考方案1】:是的namenode, dataNode, secondaryNameNode, jobTracker, taskTracker
都是不同的virtual machines
(JVM
s 你可以打电话给他们)。您可以在一台物理机上启动它们(pseudo/local mode
),也可以在不同的物理机上启动它们(distributed mode
)。这些都在 Hadoop1 中。
Hadoop2
引入了带有YARN
的容器,其中jobTracker
和taskTracer
被更有效地删除了resourceManager
、applicationManager
、nodeManager
等。您可以找到更多信息hadoop-yarn-site
数据存储在HDFS
(Hadoop Distributed File System
) 并存储在blocks
,默认为64MB
。当数据加载到hdfs
时,hadoop
在集群中以定义的块大小平均分配数据。当作业运行时,代码将分发到集群中的节点,以便每个处理都发生在数据所在的位置,shuffle
和sorting
情况除外。
我希望您对hadoop
和hdfs
的工作原理有大致的了解。以下是一些链接供您以 Map Reduce programmingcluster setuphadoop commands
【讨论】:
好的。如果我必须处理大量数据,我想知道 hadoop 和 hdfs 的工作原理。我应该如何输入它 我猜你一定浏览过我分享的所有链接。您可以尝试simple word count,其中解释了如何访问 hdfs 和使用 hadoop 以及 hadoop 的工作原理。以上是关于hadoop中输入了多少数据?的主要内容,如果未能解决你的问题,请参考以下文章