大数据开发:hadoop配置
一、相关知识回顾
-
RPC伪分布式 去中心化
-
zookeeper保证分布式存在
-
HDFS:
-
主节点namenode,从节点datanodes
-
namenode:
-
接收用户操作请求
-
维护文件系统的目录结构
-
管理文件和block的关系,block与datanodes的关系
-
-
datanodes:
-
存储文件
-
文件被分成block存储在磁盘
-
为保证文件安全,文件会有多个备份
-
-
分布式文件存储
-
信息源:
购买信息元(对海量数据清洗)
自营提供(限于大公司)
爬虫、抓包
-
信息格式:文件、文本、sql、json
分布式计算
-
离线批处理
MapReduce
spark
-
实时数据流
storm
spark
Sqoop数据迁移:hdfs-->mysql
flume数据上传,把本地的数据上传至hafs中
二、安装hadoop/jdk
第一步:环境准备
-
下载hadooop,jdk压缩包
-
安装到usr目录下
-
切换到usr目录下(cd)
-
分别解压压缩包(tar -zxvf 压缩包名)
-
删除压缩包(rm -rf 压缩包名称)
-
修改文件名,方便操作(mv 旧名称/ 新名称)
-
cat /etc/profile查看环境变量
-
配置环境变量
nano /etc/profile
- 在末尾添加(注意: 每行之间不能有空格)
export JAVA_HOME=/usr/jdk export HADOOP_HOME=/usr/hadoop export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
- ctrl+x 退出并保存,
- 配置完成后生效:
source /etc/profile
,若没有提示则生效成功
第二步:hadoop配置
-
切换到hadoop文件目录 /usr/hadoop/etc/hadoop
nano hadoop-env.sh
找到如图
- 改成:
JAVA_HOME=/usr/jdk
ctrl+x保存退出
-
生效配置:
source hadoop-env.sh
-
配置 core-site.xml
在configuration中添加如下:
命令:
nano core-site.xml
<property> <name>fs.defaultFS</name> <value>hdfs://192.168.169.1:8020</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/usr/hadoop/tmp</value> </property>
注意:
hdfs://虚拟机ip:8020
-
配置hdfs-site.xml
命令:
nano hdfs-site.xml
在configuration中添加如下:
<property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/hadoop/tmp/dfs/data</value> </property>
-
-
hadoop格式化
hdfs namenode-format
-
启动hadoop:
start-dfs.sh
注意:启动进程可能要输入密码
-
检查是否启动成功
jps
-
关闭hadoop:
stop-dfs.sh