Hadoop的相关资料

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop的相关资料相关的知识,希望对你有一定的参考价值。

1 HDFS

1.1 概念

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统

1.2 特点

- 高度容错性

- 硬件要求低

- 能提供高吞吐量的数据访问

1.2 文件系统命令行

1.1.1 获取帮助

hadoop fs -help

1.2.2 ls命令

hadoop fs -ls /
hadoop fs -ls -R /user

1.3 getconf命令

 hdfs getconf -help
hdfs getconf -namenodes

1.4 版本信息

hdfs version

2 MapReduce


3 Hive

3.1 Hive的简介

3.1.1 概念

Hive是一个基于Hadoop的数据仓库平台。

3.1.1 Hive的作用

通过hive,我们可以方便地进行ETL的工作

hive定义了一个类似于SQL的查询语言

HQL能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行

3.1.3 Hive项目的历史

Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与Pig有相似之处,但它有一些Pig目前还不支持的机制。

比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。

参阅资料:

==================================================

Docs:

----------------

http://hadoop.apache.org/docs/current/


Hadoop Common Guide:

---------------------

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html

File System Shell Guide:

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#Overview


MapReduce Common Guide:

------------------------

http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapredCommands.html


Hive Docs

-------------------------

http://hive.apache.org

GettingStarted:

https://cwiki.apache.org/confluence/display/Hive/GettingStarted

User Documentation:

https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentation


======================================

其他参考:

======================================

ETL的概念:

----------

http://www.cnblogs.com/elaron/archive/2012/04/09/2438372.html


本文出自 “老谭linux集群博客” 博客,请务必保留此出处http://cmdschool.blog.51cto.com/2420395/1843887

以上是关于Hadoop的相关资料的主要内容,如果未能解决你的问题,请参考以下文章

Express实战 - 应用案例- realworld-API - 路由设计 - mongoose - 数据验证 - 密码加密 - 登录接口 - 身份认证 - token - 增删改查API(代码片段

hadoop单机

基于docker搭建hadoop跨主机集群

AI学习路线和书籍分享

C++ 解释器/控制台/片段编译器

Hadoop 核心编程之 HDFS 的文件操作