大数据开发:Hadoop配置

Posted 梦想与爱

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据开发:Hadoop配置相关的知识,希望对你有一定的参考价值。

大数据开发:hadoop配置

一、相关知识回顾

  • RPC伪分布式 去中心化

  • zookeeper保证分布式存在

  • HDFS:

    • 主节点namenode,从节点datanodes

    • namenode:

      • 接收用户操作请求

      • 维护文件系统的目录结构

      • 管理文件和block的关系,block与datanodes的关系

    • datanodes:

      • 存储文件

      • 文件被分成block存储在磁盘

      • 为保证文件安全,文件会有多个备份

分布式文件存储

  • 信息源:

    购买信息元(对海量数据清洗)

    自营提供(限于大公司)

    爬虫、抓包

  • 信息格式:文件、文本、sql、json

分布式计算

  • 离线批处理

    MapReduce

    spark

  • 实时数据流

    storm

    spark

    Sqoop数据迁移:hdfs-->mysql

    flume数据上传,把本地的数据上传至hafs中


二、安装hadoop/jdk

第一步:环境准备

  1. 下载hadooop,jdk压缩包

  2. 安装到usr目录下

  3. 切换到usr目录下(cd)

  4. 分别解压压缩包(tar -zxvf 压缩包名)

  5. 删除压缩包(rm -rf 压缩包名称)

  6. 修改文件名,方便操作(mv 旧名称/ 新名称)

  7. cat /etc/profile查看环境变量

  8. 配置环境变量 nano /etc/profile

    • 在末尾添加(注意: 每行之间不能有空格)
    export JAVA_HOME=/usr/jdk
    export HADOOP_HOME=/usr/hadoop
    export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
    export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
    
    • ctrl+x 退出并保存,
    • 配置完成后生效: source /etc/profile,若没有提示则生效成功

第二步:hadoop配置

  1. 切换到hadoop文件目录 /usr/hadoop/etc/hadoop

    • nano hadoop-env.sh

    找到如图image-20200218150234115

    • 改成: JAVA_HOME=/usr/jdk ctrl+x保存退出
  • 生效配置:source hadoop-env.sh

    1. 配置 core-site.xml

      在configuration中添加如下:

      命令:nano core-site.xml

      <property>
      <name>fs.defaultFS</name>
      <value>hdfs://192.168.169.1:8020</value>
      </property>
      <property>
      <name>hadoop.tmp.dir</name>
      <value>/usr/hadoop/tmp</value>
      </property>
      

      注意hdfs://虚拟机ip:8020

    2. 配置hdfs-site.xml

      命令:nano hdfs-site.xml

      在configuration中添加如下:

      <property>
      <name>dfs.replication</name>
      <value>1</value>
      </property>
      <property>
      <name>dfs.namenode.name.dir</name>
      <value>/usr/hadoop/tmp/dfs/name</value>
      </property>
      <property>
      <name>dfs.datanode.data.dir</name>
      <value>/usr/hadoop/tmp/dfs/data</value>
      </property>
      
  1. hadoop格式化

    hdfs namenode-format

  2. 启动hadoop:start-dfs.sh

    注意:启动进程可能要输入密码

  3. 检查是否启动成功jps

  4. 关闭hadoop:stop-dfs.sh

以上是关于大数据开发:Hadoop配置的主要内容,如果未能解决你的问题,请参考以下文章

大数据 hadoop 三种运行模式的区别、及详细配置讲解

大数据开发Hadoop工程师-第一课 Java基本知识和JDK的安装配置

大数据开发基础入门与项目实战Hadoop核心及生态圈技术栈之1.Hadoop简介及Apache Hadoop完全分布式集群搭建

大数据开发常见问题

1Python大数据应用——部署Hadoop

大数据技术之_03_Hadoop学习_02_入门_Hadoop运行模式+本地运行模式+伪分布式运行模式+完全分布式运行模式(开发重点)+Hadoop编译源码(面试重点)+常见错误及解决方案(示例代(代