大数据2-Hadoop伪分布式+ZK+HDFS
Posted 项羽齐
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据2-Hadoop伪分布式+ZK+HDFS相关的知识,希望对你有一定的参考价值。
大数据解决四大核心问题:
-
数据的存储(Big Data Storage),海量数据需要处理和分析,但前提是要进行有效的存储。Hadoop的诞生突破了传统数据文件系统的单机模式。HDFS使得数据可以跨越不同的机器与设备,并且用一个路径去管理不同平台上的数据。
-
数据的计算(Data Calculation),在数据有效存储的基础上,对数据的统计和分析本质上就是数据的计算。在大数据领域常见的计算工具有MapReduce、Spark等。
-
数据的查询(Consensus Data),对大数据进行有效管理的核心指标是数据查询技术。其中NoSQL (Not Only SQL)应用较为广泛,能较有效解决数据的随机查询,其中就主要包括Hbase等。从本质而言,依旧是Hadoop模式下的数据查询。
-
数据的挖掘(Data mining),Hive数据仓库为数据的挖掘提供了基础,通过分类、预测、相关性分析来建立模型进行模式识别、机器学习从而构建专家系统。
以上是关于大数据2-Hadoop伪分布式+ZK+HDFS的主要内容,如果未能解决你的问题,请参考以下文章
Hadoop学习系列(2.Hadoop框架介绍与搜索技术体系介绍)
大数据Hadoop需要了解哪些内容?
大数据笔记:HDFS-伪分布式模式
大数据笔记:HDFS集群搭建-伪分布式模式
大数据分析Hadoop + Spark 10分钟搭建Hadoop(伪分布式 )+ Spark(Local模式)环境
大数据之---hadoop伪分布式部署(HDFS)全网终极篇