大数据百科全书-Hadoop入门

Posted 我们是毕业生

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据百科全书-Hadoop入门相关的知识,希望对你有一定的参考价值。



大数据是什么?
很多同学第一反应就是hadoop。既然大家这么喜欢hadoop,今天我们就好好说到hadoop

   


 1

hadoop是什么


Hadoop被公认是一套行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力。


几乎所有主流厂商都围绕Hadoop开发工具、开源软件、商业化工具和技术服务。


今年大型IT公司,如EMC、Microsoft、Intel、Teradata、Cisco都明显增加了Hadoop方面的投入。



 

 2

hadoop的核心


1.HDFS: Hadoop Distributed File System  分布式文件系统
2.YARN: Yet Another Resource Negotiator   资源管理调度系统

HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

把HDFS理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘。

把MapReduce理解成为一个计算引擎,按照MapReduce的规则编写Map计算/Reduce计算的程序,可以完成计算任务。



 

 3

hadoop到底要解决什么


1、存储,海量的数据怎样有效的存储?主要包括hdfs、Kafka;


2、计算,海量的数据怎样快速计算?主要包括MapReduce、Spark、Flink等;


3、查询,海量数据怎样快速查询?主要为Nosql和Olap,Nosql主要包括Hbase、 Cassandra 等,其中olap包括kylin、impla等,其中Nosql主要解决随机查询,Olap技术主要解决关联查询;


4、挖掘,海量数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括TensorFlow、caffe、mahout等;



 4

hadoop具体应用场景


大数据存储:分布式 存储

日志处理:擅长日志分析

ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎:Hadoop + lucene实现

数据挖掘:目前比较流行的广告推荐,个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。



 5

hadoop生态

大数据百科全书(三)-Hadoop入门





以上是关于大数据百科全书-Hadoop入门的主要内容,如果未能解决你的问题,请参考以下文章

尚硅谷大数据Hadoop教程-笔记01入门

大数据技术——Hadoop3.X入门搭建+安装调优(1.入门)

大数据hadoop入门之hadoop家族详解

大数据入门-三分钟读懂Hadoop

大数据新手入门:给刚玩Hadoop的朋友一些建议

Hadoop基础与电商行为日志分析 新手入门大数据