hadoop中输入了多少数据?

Posted

技术标签:

【中文标题】hadoop中输入了多少数据?【英文标题】:How huge amount of data is inputted in hadoop? 【发布时间】:2017-06-10 11:30:19 【问题描述】:

我是大数据和 hadoop 的新手。我想知道名称节点、数据节点、辅助名称节点、作业跟踪器、任务跟踪器是不同的系统吗?如果我要处理 1000 PB 数据,数据是如何划分的,谁在做这个任务,我应该在哪里输入 1000 PB 数据。

【问题讨论】:

请分享您到目前为止所尝试的内容。 我只是从网站上获得的理论知识。没有实用知识。 【参考方案1】:

是的namenode, dataNode, secondaryNameNode, jobTracker, taskTracker 都是不同的virtual machinesJVMs 你可以打电话给他们)。您可以在一台物理机上启动它们(pseudo/local mode),也可以在不同的物理机上启动它们(distributed mode)。这些都在 Hadoop1 中。

Hadoop2 引入了带有YARN 的容器,其中jobTrackertaskTracer 被更有效地删除了resourceManagerapplicationManagernodeManager 等。您可以找到更多信息hadoop-yarn-site

数据存储在HDFS (Hadoop Distributed File System) 并存储在blocks,默认为64MB。当数据加载到hdfs 时,hadoop 在集群中以定义的块大小平均分配数据。当作业运行时,代码将分发到集群中的节点,以便每个处理都发生在数据所在的位置,shufflesorting 情况除外。

我希望您对hadoophdfs 的工作原理有大致的了解。以下是一些链接供您以 Map Reduce programmingcluster setuphadoop commands

开头

【讨论】:

好的。如果我必须处理大量数据,我想知道 hadoop 和 hdfs 的工作原理。我应该如何输入它 我猜你一定浏览过我分享的所有链接。您可以尝试simple word count,其中解释了如何访问 hdfs 和使用 hadoop 以及 hadoop 的工作原理。

以上是关于hadoop中输入了多少数据?的主要内容,如果未能解决你的问题,请参考以下文章

说到大数据,你对hadoop和Cloudera了解多少?

大约多少半结构化数据足以建立 Hadoop 集群?

大数据分析到底需要多少种工具

Java大数据开发Hadoop(22)-NLineInputFormat案例

深度分析如何在Hadoop中控制Map的数量

Apache pig:检查 cvs 输入中存在多少具有相同数字的行(任意组合)