Hadoop入门概念
Posted 茅坤宝骏氹
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop入门概念相关的知识,希望对你有一定的参考价值。
一、hadoop的概念
(1)什么是大数据
大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。
(2)hadoop的定义
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
二、单机安装(Ubuntu14版)
1、安装配置jdk
A、在线安装:
B、离线安装
1)下载jdk-7u80-linux-x64.tar.gz
下载路径:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html
把离线包拷入到ubuntu的当前用户mk的software文件夹下,然后执行命令安装。
2)执行命令
mkdir ~/software
tar -zxvf jdk-7u80-linux-x64.tar.gz
mv jdk1.7.0_80/ software/jdk1.7.0_80
C、配置JDK环境变量JAVA_HOME
安装完jdk后,需要配置环境变量,把java变成系统内命令
编辑/etc/profile文件来修改系统环境变量。
1)配置环境变量
执行命令(后面java.sh不要有空格,如‘java.sh ’,否则读不了配置文件)
sudo gedit /etc/profile.d/java.sh
打开/etc/profile文件在文件中添加如下配置
export JAVA_HOME=/home/mk/software/jdk1.7.0_80
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH
注意:写配置值时,export语句的内容里面不要换行
2)验证配置
(1)使profile文件修改配置生效
执行命令:source /etc/profile
或者注销再登录当前用户
执行命令:sudo reboot
(2)验证java质量
执行命令 :java -version
2、安装hadoop
A、下载解压hadoop安装包
下载hadoop安装包hadoop-2.6.0.tar.gz
下载路径:http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
B、拷贝到hadoop用户目录中,执行命令进行安装
执行命令
tar xvf hadoop-2.6.0.tar.gz
mv hadoop-2.6.0 software/
C、修改hadoop环境变量配置
执行命令(后面hadoop.sh不要有空格,如‘hadoop.sh ’,否则读不了配置文件)
sudo gedit /etc/profile.d/hadoop.sh
hadoop.sh的内容
export HADOOP_HOME=/home/mk/software/hadoop-2.6.0
export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH
export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
注意:写配置值时,export语句的内容里面不要换行
D、验证配置
1)使hadoop命令配置生效
执行命令:source /etc/profile
或注销再登录当前用户
2) 验证:
hadoop version
3、启动Hadoop
A、进入到 /home/mk/soft/hadoop-2.6.0/etc/hadoop目录,查看配置文件
执行命令: cd soft/hadoop-2.6.0/etc/hadoop/
列出配置文件: ls
B、编辑/home/mk/soft/hadoop-2.6.0/etc/hadoop/hadoop-env.sh文件,修改参数信息
执行命令:cd soft/hadoop-2.6.0/ etc/hadoop
sudo gedit hadoop-env.sh
修改文件里面的export JAVA_HOME=${JAVA_HOME}为
export JAVA_HOME=/home/hadoop/jdk1.7.0_80
C、测试Hadoop环境可用性
执行命令 :hadoop
三、测试例子
题目:使用hadoop自带的hadoop-mapreduce-examples-2.6.0.jar对某目录下的文档进行单词数的统计
执行命令:
#切换到用户目录
cd /home/mk/
#在用户目录下创建input目录
mkdir input
#复制hadoop的配置文件进入input
cp $HADOOP_HOME/etc/hadoop/*.xml input/
#统计input目录里面的以dfs前缀的单词,保存结果在output目录
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output \'dfs[a-z.]+\'
#输出output目录的结果
cat output/*
结果:
以上是关于Hadoop入门概念的主要内容,如果未能解决你的问题,请参考以下文章