Cloudera 安装有疑问吗?
Posted
技术标签:
【中文标题】Cloudera 安装有疑问吗?【英文标题】:Cloudera installation Doubts? 【发布时间】:2013-07-24 02:41:21 【问题描述】:我是cloudera的新手,我在我的系统中安装cloudera成功我有两个疑问,
假设一台机器有一些节点已经使用 hadoop 和一些数据,我们可以安装 Cloudera 以使用现有的 Hadoop,而不对存储现有 hadooop 的数据进行任何更改或修改。
我在我的机器上安装了 Cloudera,我还有另外三台机器将它们添加为集群,我想知道,我想在将这些机器添加为集群之前在这三台机器上安装 cloudera 吗?或者我们可以添加一个节点作为集群而不在该特定节点上安装 cloudera?。
提前感谢任何人,请提供有关上述问题的一些信息。
【问题讨论】:
需要澄清第一个问题--您在某些节点中有不同的 Hadoop 分布,并且您想将该分布更改为 Cloudera 的? 感谢@JtheRocker,是的,如果我在某些节点中有不同的 hadoop 分布,我可以将这些分布更改为 clodera 而不会丢失数据吗? 【参考方案1】:回答问题-
1。如果你想从现有的 Apache Distribution 迁移到 CDH,你可以follow this link
摘录:
概览
迁移过程确实需要对 Linux 有一定的了解 系统管理。你应该在开始之前制定一个计划。你 将重新启动一些关键服务,例如名称节点和 作业跟踪器,因此需要一些停机时间。鉴于价值 集群上的数据,您还需要小心获取最近的 任何关键任务数据集以及名称节点的备份 元数据。
如果您要从 基于 Apache Software Foundation 版本的 Hadoop 版本 早于 0.20。
2.CDH 二进制文件需要在所有节点中安装和配置,以使基于 CDH 的集群启动并运行。
【讨论】:
【参考方案2】:来自Cloudera Manual
您可以通过以下方式将数据从 CDH3 (或任何 Apache Hadoop) 集群迁移到 CDH4 集群 使用并行复制数据的工具,例如 DistCp 工具 在 CDH4 中提供。
Other sources
关于你的第二个问题,
再次来自manual page
重要: 在继续之前,您需要决定:
作为一般规则: NameNode 和 JobTracker 在同一个“主”主机上运行,除非 集群很大(几十个节点以上),master 主机(或主机)不应该 运行辅助 NameNode(如果使用)、DataNode 或 TaskTracker 服务。在大型集群中,特别重要的是 辅助 NameNode(如果使用)在与 名称节点。集群中除主控主机外的每个节点都应 运行 DataNode 和 TaskTracker 服务。
此外,如果您使用 Cloudera Manager,它将自动执行所有必要的设置,即在集群中的节点上安装必要的选定组件。
题外话:我有没有正确参考手册的坏习惯。看清楚了,它回答了我们所有的问题
【讨论】:
谢谢@SuvP,我可以通过cloudera将新机器作为集群添加到我的机器上吗?其实新机没有cdh。【参考方案3】:回答你的第二个问题, 您可以直接添加,只需安装一些先决条件,例如 openssh-clients 和防火墙和 java。
这些机器(现有节点,新的三个节点)应该接受相同的用户名和密码(或者)你应该为这些主机设置无密码 ssh..
您应该在添加节点时连接到互联网。
希望对你有帮助:)
【讨论】:
以上是关于Cloudera 安装有疑问吗?的主要内容,如果未能解决你的问题,请参考以下文章