关于Hadoop的基础认识

Posted 2021-01-23 xiaolebailetu

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了关于Hadoop的基础认识相关的知识，希望对你有一定的参考价值。

Hadoop发展史

一、大数据时代背景

0.大数据（bigdata）:大量的数据；单体数据*用户数 = 大数据

1.第三次信息化浪潮的产物，郭士纳 IT 十五年/次重大变更；

2.信息爆炸表现：①技术升级促使个体产生的数量不断增长（图片像素、存储容量），②互联网技术和应用的发展，促使互联网用户激增

3.大数据特点：①大量化（volume）、②快速化（velocty）、③多样化（variety）、④价值化(value)

①大数据摩尔定律 ②1秒定律 ③由结构化和非结构化（科学研究、企业应用、Web 1.0 /2.0数据）数据组成,数据整合产生化学反应（Palantir 语义知识搜索挖掘平台） ④价值密度低，商业价值高

小结：0.大数据三个特点（大、杂、快） —— 技术挑战

二、大数据带来的技术挑战

0.存储设备容量不断增加

1.数据处理——获取有价值的信息搜索、广告、推荐

2.从数据中获取有价值的信息 ——计算

3.数据处理框架：数据源—>文件存储->数据存储->数据计算->数据分析关键问题：计算、存储、容错 ——hadoop .

三、大数据的影响

0.科研领域：实验、理论、计算、数据吉姆格雷

1.思维方式：全样而非抽样、效率而非精确、相关而非因果

2.社会发展：决策方式，推进新技术、应用的涌现就业市场：

3.热门职业——数据科学家

4.人才培养：一定程度上改变中国高校信息技术相关专业的现有教学和科研体制

四、大数据的应用

0.无处不在：金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等

1.交通手机定位&交通数据 ——城市规划电影《纸牌屋》大数据分析医疗谷歌流感趋势

总结：0.大数据由来、特点、技术挑战、影响、应用

Hadoop理论概述

0.前提存储、计算->hadoop

一、hadoop 发展简史

0.源自2002年Apache Nutch项目——一个开源的网络搜索引擎 Lucene项目的一部分

1.2003年，谷歌发表论文GFS 2004年，Nutch 项目模仿GFS开发了分布式文件系统NDFS（HDFS的前身）

2.2004年，谷歌公司 MapReduce分布式编程思想 3.2005年，Nuth 开源实现谷歌的MapReduce

4.2006.2 hadoop项目成立 5.2011.5 hadoop1.0.0版本发布 2012.5 2.0版本发布

二、Hadoop简介

0.Apache 软件基金会开源分布式计算平台系统底层细节透明的分布式基础架构 Java语言、跨平台性提供海量数据处理能力

1.核心分布式文件系统HDFS（存储）分布式计算MapReduce（运算）

2.特性高可靠性、高效性、高可拓展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言

三、Hadoop 生态系统

0.HDFS 分布式存储系统 MapReduce 分布式计算框架 ——Hadoop 两大核心，解决大数据三大特性的技术挑战

1.Hive 数据仓库将结构化的数据文件映射为库表，并提供浅淡的SQL查询功能替代MapReduce进行海量运算而进行困难编程功能

2.Pig 工作流引擎 Mahout 数据挖掘库

3.Flume 日志收集网站上的访问量等 Sqoop 数据库TEL工具与传统数据库和Hadoop进行数据交换，如关系数据库

4.围绕两大核心出现的工具，方便调用和使用数据

5.Hbase 分布式数据库（mysql 关系结构数据）企业、科研等非结构话数据存储

6.ZooKeeper分布式协调服务集群环境及工具的管理

7.Ambari 安装部署工具管理和监控Hadoop集群的Web界面

8.Oozie 作业流调度系统

Hadoop伪分布模式安装命令

伪分布模式环境 Linux Ubuntu 14.04

平台章鱼大数据

ls
1.创建用户
sudo useradd -d /home/zhangyu1-m zhangyu1
设置密码sudo passwd zhangyu1

授权 sudo usermod -G sudo zhangyu1

切换账户 su -zhangyu1
ssh免密码登录
ssh-keygen -t rsa
使用默认值按回车即可
存放位置cd ~/.ssh
ll
创建 toch ~/.ssh/authorized_keys
cat ~/.ssh/id_rsa.pub>>~/.ssh/authorized_keys
ssh localhoat
yes
exit
2.安装Hadoop
创建文件夹
sudo mkdir /apps
sudo mkdir /data
分配属主权限
sudo chown -R zhangyu1:zhangyu1 /apps
sudo chown -R zhangyu1:zhangyu1 /data
ls -l /
配置HDFS
新建目录 mkdir -p /data/hadoop
进入根目录 cd /
cd /data/hadoop/
ls
下载
wget http://192.168.1.100:60000/allfiles jdk-7u75-linux-x64.tar.gz
wget http://192.168.1.100:60000/allfiles /hadoop1/hadoop-2.6.0-cdh5.4.5.tar.gz
配置环境变量
解压
tar -xzvf /data/hadoop jdk-7u75-linux-x64.tar.gz
ls
tar -xzvf /data/hadoop hadoop-2.6.0-cdh5.4.5.tar.gz
ls
重命名
mv /data/hadoop/jdk1.7.0_75/ java
mv /data/hadoop/hadoop-2.6.0-cdh5.4.5 hadoop
ls
移动文件至指定目录
mv /data/hadoop/java /apps/
mv /data/hadoop/hadoop /apps/
cd /apps
ls
添加环境变量
sudo vim ~/.bashrc
按i键进入
#java
export JAVA_HOME=/apps/java
export PATH=$JAVA_HOME/bin:$PATH
#hadoop
export HADOOP=/apps/hadoop
export PATH=$HADOOP/bin:$PATH
按ESC
:wq保存并退出
重启
source ~/.bashrc
java 运行
javac 编译
版本查看
hadoop version
修改hadoop相关配置
clear
cd /apps/hadoop/etc/hadoop
ls
vim hadoop-env.sh
export JAVA_HOME=/apps/java
esc :wq
vim core-site.xml
复制粘贴

.....

esc :wq
创建目录
mkdir -p /data/tmp/hadoop/tmp
vim hadfs-site.xml
复制粘贴

.....

mkdir -p /data/tmp/hadoop/hdfs/name
mkdir -p /data/tmp/hadoop/hdfs/data
vim slaves
格式化
hadoop namenode -format
启动hadoop
cd /apps/hadoop/sbin/
ls
./start-all.sh
yes
查询
jps
检测
创建命令
hadoop fs -mkdir /test
hadoop fs -ls/
配置MapReduce
cd /apps/hadoop/edc/hadoop
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
复制粘贴
。。。
esc :wq
vim yarn-site.xml
复制粘贴
。。。
esc :wq
cd /apps/hadoop/sbin/
ls
./start-yarn.sh
./stop-all.sh
jps
./start-all.sh
解决mapred-site.xml中的错误
cd /apps/hadoo/etc/hadoop
vim mapred-site.xml
clear
cd /apps/hadoop/sbin/
ls
./stop-all.sh
./start-all.sh
jps

以上是关于关于Hadoop的基础认识的主要内容，如果未能解决你的问题，请参考以下文章

从零学习Hadoop(01)：认识Hadoop

零基础学大数据，认识Hadoop和Spark

『教程』Hadoop基础

hadoop 安装