大数据增长,Apache Hadoop是基础军团

Posted 三道湾IT那伙人

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据增长,Apache Hadoop是基础军团相关的知识,希望对你有一定的参考价值。

由于Apache Spark,Apache Hadoop和Apache Kafka是一系列令人敬畏的大数据服务和项目,因此它们趋于一致。

一些在大公司没有任何经验的专家,在过去五年中没有编写大数据代码的专家可能会对Apache Hadoop的妄想缩小或消失在云中,或者陷入一些想象中的Apache Spark生态圈。

这是错误的。

Apache Hadoop正在发展到人们甚至不需要提及它的名字。这是一个被认为是理所当然的“每个人”平台。大多数主要参与者都采用了它,并且一直在运行它。许多人将他们所有的遗留数据转移到Apache Hadoop,并从专有的数据仓库,传统的关系型数据库,失败的NoSQL存储失败以及各种数据源混杂在一起。

Apache Hadoop和Apache Spark是Apache大数据环境的一部分,像花生酱和果冻一起工作。在Apache Hadoop的YARN之上运行Apache Spark确实没有什么好的理由。你有强大的节点,靠近他们所需要的数据。Apache Spark SQL非常棒,但通过使用Apache Hive上下文,您可以获得目录并访问所有Apache Hive表。通过在Apache Hadoop中运行Apache Spark,您可以通过Apache Ranger获得行级和列级控制的优势。

Apache Spark是一个流行的执行引擎,可以很好地连接到Apache Hadoop。但Apache Storm,Apache Flink,Apache Apex等等也是如此。幸运的是,Google推出了Apache Beam来帮助巩固这个执行引擎的蔓延。

运行没有Apache Hadoop的Apache Spark对于临时短暂的数据科学来说也许还行,但即使如此,我也不这么认为。对于真正的企业用户来说,安全性,数据治理,用户,组,执行队列,数据目录,数据模型管理,机器学习模型管理以及其他几十个真正的关注点都不仅仅需要Apache Spark。由于Apache Spark没有存储空间,因此Apache Spark并不是用来替代Hadoop的。计算和存储需要为真实应用程序一起工作。您需要在群集上运行大量的批处理和流式工作负载,并存储数PB的数据。同样的环境允许深度学习,机器学习,物联网,计算机视觉以及所有其他大数据问题得到解决和大规模运行。

Apache NiFi还使Apache Hadoop成为存储和检索企业所需的所有物联网,移动,人工智能和“实时”应用程序所需的所有数据的核心位置。

对于业余开发者,也许你可以在桌面上运行Apache Spark和Apache NiFi,而不是使用Apache Hadoop。你将会失去像Apache Zeppelin这样的笔记本电脑,轻松运行和开发机器学习和数据联合应用程序。

人们必须记住,Apache的Hadoop是不是一个东西-它是工具,库平台,服务集成在一起的NoSQL,SQL,批量,流媒体,存储,和许多其他用途。

Apache Hadoop现在位于人员的本地数据中心,多云以及这两者的混合组合中。Apache Hadoop包含Azure HDInsight,Amazon中的Hortonworks Data Cloud,每个云中的Hortonworks CloudBreak ...很难避免Apache Hadoop。

Apache Hadoop可能看起来不像旧版本的仅MapReduce数据。它现在是一个多层面的分布式计算和存储平台,包括流,NoSQL,实时SQL,批处理SQL,批处理作业,Apache Spark作业,深度学习,机器学习,消息,物联网等等。

Apache Hadoop远没有死,Apache Hadoop是基础军团。也许MapReduce即将出台,因为大多数服务都在Apache Hadoop大数据平台内的Apache Tez,Apache Spark和其他引擎上运行。突出显示的项目可以作为自己的服务而存在,但作为一个集成平台的一部分,它变得非常强大和易于使用。

我们不要忘记一些项目:

  • Apache Hive (this is the SQL you are looking for)

  • Apache Spark

  • Apache HBase

  • Apache Phoenix

  • Apache Atlas

  • Apache Ranger

  • Apache Storm

  • Apache Accumulo

  • Apache Pig

  • Druid

  • Apache Sqoop

  • Apache SuperSet

  • Apache NiFi

  • Apache Kafka

  • Apache Knox

  • Hortonworks Streaming Analytics Manager

  • Hortonworks Schema Registry

  • SnappyData

  • DL4J

  • TensorFlow

  • IBM BigSQL

  • Apache HAWQ

  • Apache Calcite

  • Apache Ambari

  • Apache Oozie

  • Apache ZooKeeper

  • Apache Zeppelin

  • IBM DSX


这些项目都有巨大的生态系统和大量的用户。当我们将所有这些因素结合在一起时,Apache Hadoop是巨大而且正在增长的。如果我们看一下Google Trends,我们会看到Apache Spark,Apache Hadoop和Apache Kafka趋于一致,因为它们应该被认为是一系列令人敬畏的大数据服务和项目。



以上是关于大数据增长,Apache Hadoop是基础军团的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop基础:从Hadoop框架讨论大数据生态

大数据第一阶段

学习Hadoop大数据基础框架

学习大数据基础框架hadoop需要什么基础

学习hadoop大数据基础框架需要什么基础

学习hadoop大数据基础框架需要什么基础