大数据学习第六天
Posted lkoooox
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据学习第六天相关的知识,希望对你有一定的参考价值。
HDFS安装-完全分布式
1、 先决条件
a) 三台机器(以上)
b) 每台机器时间一致,相差30秒以内。
c) 必须有主机名和ip映射。
d) 必须有JDK1.7,并且JDK的环境变量必须配置好。
i. rpm -ivh jdk-7u79-linux-x64.rpm 安装jdk
ii. 配置环境变量:vi ~/.bash_profile
在文件的最后添加:
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
source ~/.bash_profile
e) 防火墙暂时关闭。
i. service iptables stop
ii. chkconfig iptables off
2、 上传tar,并且解压。并且配置hadoop的环境变量
a) tar -zxvf hadoop-2.5.2.tar.gz
export HADOOP_HOME=/root/hadoop-2.5.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
3、 编辑hadoop配置文件:hadoop-env.sh, core-site.xml, hdfs-site.xml,
Sleves。 所有的配置文件在/root/hadoop-2.5.2/etc/hadoop目录中
Hadoop-env.sh
更改第25行
export JAVA_HOME=/usr/java/default
core-site.xml配置
<property>
<name>fs.defaultFS</name>
<value>hdfs://node5:9000</value> 表示namenode的主机名
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop</value>
</property>
Hdfs-site.xml 配置
<property>
<name>dfs.namenode.secondary.http-address</name> 配置SN的主机名
<value>node6:50090</value>
</property>
<property>
<name>dfs.namenode.secondary.https-address</name>
<value>node6:50091</value>
</property>
Slaves 配置
所有datanode的主机名
node1
node2
node3
4、 设置sshd免密码登陆。
a) 找一台主节点:启动服务。
i. 执行命令生成密钥。ssh-keygen
ii. 拷贝主节点的公钥到所有节点中去。
\1. ssh-copy-id -i id_rsa.pub [email protected]
5、 拷贝文件:hosts,bash_profile hadoop目录
a) scp /etc/hosts [email protected]:/etc/
b) scp ~/.bash_profile [email protected]:~
c) scp -r /root/hadoop-2.5.2 [email protected]:~
6、 格式化HDFS: hdfs namenode –format 必须在主节点上
7、 在主节点上启动 start-dfs.sh
–分布式存储系统HDFS (Hadoop Distributed File System )POSIX
• 分布式存储系统
• 提供了 高可靠性、高扩展性和高吞吐率的数据存储服务
–分布式计算框架MapReduce
• 分布式计算框架(计算向数据移动)
•具有 易于编程、高容错性和高扩展性等优点。
–分布式资源管理框架YARN(Yet Another Resource Management)
以上是关于大数据学习第六天的主要内容,如果未能解决你的问题,请参考以下文章
打怪升级之小白的大数据之旅(六十五)<Hive旅程第六站:Hive的查询>