Hadop 基础

Posted 2020-11-02 Weblog

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hadop 基础相关的知识，希望对你有一定的参考价值。

HDFS 体系结构

mapreduce 体系结构和算法
haddop 集群 zookeeper 操作；
HBase 体系结构
Hive /Sqoop 体系结构和基本操作；

mapreduce 逻辑处理数据；
HDFS 存放海量数据；

结构与非结构化数据
structured data ( RDBMS ) & Untructured data (flume scribe)
HBASE ( OLTP ) 在线事务处理应用；高延迟处理高数据量；
数据流的处理语言；

分布式的存储分布式的计算；
小规模数据获取不适用 { 分布式额外的管理消耗，（网络 IO 等）}
3个版本线

HDFS 的架构
分布式文件系统
主从结构
主节点 namenode
接收用户的操作请求
维护文件系统目录结构
管理文件与block之间的关系 block与datanode 之间的关系；

从节点 datanode
存储文件
文件被分成block存储在磁盘上、block 可以存放在不同的机器上；
保障数据安全文件有多个副本；
分块管理容易：移动读取上传都比较麻烦、划分成块。分明别类的进行存储；
{块文件64M}

map Reduce
并行计算框架
也是主从结构
主节点只有一个 JOB tracker
负责接收客户提交的计算任务
把计算任务分给 task trackers 执行
监控 task tracker 的执行情况
从节点 task trackers
执行 job trackers 分配的计算任务；

特点吗：（分布式）
扩容能力（Sscalable）能可靠reliably 的存储和处理前兆字节PB的数据
成本低计算能能是通过所有的机器运行；关联数据 oracle 贵成本高；
高效率通过分发数据可以并行的处理数据
可靠性 Hadoop 能自动的维护数据的多分副本并且在任务失败后能够自定重新部署

Hadoop 集群的物理分布硬件没有要求还是有网络要求 (网络与千兆网卡网线千兆交换机 )

switch

datanode/Task tracker
job tracker
namenode
Client
datanode/Task Tracker
datanode/Task Tracker

master slave 跑的都有 JVM Java虚拟机

安装 { 本地模式分布式模式和集群模式 }
伪分布式：一台机器上的进程
selinux 防火墙 hostname ssh jdk hadoop

启动：
可以全部启动也可以单独启动；
star-all.sh
stop-all.sh
可以单独进行启动

hadoop 启动警告；
提示配置文件的告警的条件语句配置；
# vi hadoop-config.sh
if [ "$HADOOP_HOME_WARN_SUPPRESS" = "" ] && [ "$HADOOP_HOME" != "" ]; then
echo "Warning: \$HADOOP_HOME is deprecated." 1>&2
echo 1>&2
可以修改配置：配置条件语句不为空；
vi /etc/profile
export HADOOP_HOME_WARN_SUPPRESS=1

jps
启动验证；

启动失败：系统没有格式化（ bin/hadoop namenode -format ）
配置出错（多次格式化、可以删除磁盘配置默认tmp文件）

初始化第一次需要格式化
格式化：hadoop namenode -format
（可以删除 hadoop 目录下的tmp 文件）

以上是关于Hadop 基础的主要内容，如果未能解决你的问题，请参考以下文章