大数据增长,Apache Hadoop是基础军团
Posted 三道湾IT那伙人
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据增长,Apache Hadoop是基础军团相关的知识,希望对你有一定的参考价值。
由于Apache Spark,Apache Hadoop和Apache Kafka是一系列令人敬畏的大数据服务和项目,因此它们趋于一致。
一些在大公司没有任何经验的专家,在过去五年中没有编写大数据代码的专家可能会对Apache Hadoop的妄想缩小或消失在云中,或者陷入一些想象中的Apache Spark生态圈。
这是错误的。
Apache Hadoop正在发展到人们甚至不需要提及它的名字。这是一个被认为是理所当然的“每个人”平台。大多数主要参与者都采用了它,并且一直在运行它。许多人将他们所有的遗留数据转移到Apache Hadoop,并从专有的数据仓库,传统的关系型数据库,失败的NoSQL存储失败以及各种数据源混杂在一起。
Apache Hadoop和Apache Spark是Apache大数据环境的一部分,像花生酱和果冻一起工作。在Apache Hadoop的YARN之上运行Apache Spark确实没有什么好的理由。你有强大的节点,靠近他们所需要的数据。Apache Spark SQL非常棒,但通过使用Apache Hive上下文,您可以获得目录并访问所有Apache Hive表。通过在Apache Hadoop中运行Apache Spark,您可以通过Apache Ranger获得行级和列级控制的优势。
Apache Spark是一个流行的执行引擎,可以很好地连接到Apache Hadoop。但Apache Storm,Apache Flink,Apache Apex等等也是如此。幸运的是,Google推出了Apache Beam来帮助巩固这个执行引擎的蔓延。
运行没有Apache Hadoop的Apache Spark对于临时短暂的数据科学来说也许还行,但即使如此,我也不这么认为。对于真正的企业用户来说,安全性,数据治理,用户,组,执行队列,数据目录,数据模型管理,机器学习模型管理以及其他几十个真正的关注点都不仅仅需要Apache Spark。由于Apache Spark没有存储空间,因此Apache Spark并不是用来替代Hadoop的。计算和存储需要为真实应用程序一起工作。您需要在群集上运行大量的批处理和流式工作负载,并存储数PB的数据。同样的环境允许深度学习,机器学习,物联网,计算机视觉以及所有其他大数据问题得到解决和大规模运行。
Apache NiFi还使Apache Hadoop成为存储和检索企业所需的所有物联网,移动,人工智能和“实时”应用程序所需的所有数据的核心位置。
对于业余开发者,也许你可以在桌面上运行Apache Spark和Apache NiFi,而不是使用Apache Hadoop。你将会失去像Apache Zeppelin这样的笔记本电脑,轻松运行和开发机器学习和数据联合应用程序。
人们必须记住,Apache的Hadoop是不是一个东西-它是工具,库平台,服务集成在一起的NoSQL,SQL,批量,流媒体,存储,和许多其他用途。
Apache Hadoop现在位于人员的本地数据中心,多云以及这两者的混合组合中。Apache Hadoop包含Azure HDInsight,Amazon中的Hortonworks Data Cloud,每个云中的Hortonworks CloudBreak ...很难避免Apache Hadoop。
Apache Hadoop可能看起来不像旧版本的仅MapReduce数据。它现在是一个多层面的分布式计算和存储平台,包括流,NoSQL,实时SQL,批处理SQL,批处理作业,Apache Spark作业,深度学习,机器学习,消息,物联网等等。
Apache Hadoop远没有死,Apache Hadoop是基础军团。也许MapReduce即将出台,因为大多数服务都在Apache Hadoop大数据平台内的Apache Tez,Apache Spark和其他引擎上运行。突出显示的项目可以作为自己的服务而存在,但作为一个集成平台的一部分,它变得非常强大和易于使用。
我们不要忘记一些项目:
Apache Hive (this is the SQL you are looking for)
Apache Spark
Apache HBase
Apache Phoenix
Apache Atlas
Apache Ranger
Apache Storm
Apache Accumulo
Apache Pig
Druid
Apache Sqoop
Apache SuperSet
Apache NiFi
Apache Kafka
Apache Knox
Hortonworks Streaming Analytics Manager
Hortonworks Schema Registry
SnappyData
DL4J
TensorFlow
IBM BigSQL
Apache HAWQ
Apache Calcite
Apache Ambari
Apache Oozie
Apache ZooKeeper
Apache Zeppelin
IBM DSX
这些项目都有巨大的生态系统和大量的用户。当我们将所有这些因素结合在一起时,Apache Hadoop是巨大而且正在增长的。如果我们看一下Google Trends,我们会看到Apache Spark,Apache Hadoop和Apache Kafka趋于一致,因为它们应该被认为是一系列令人敬畏的大数据服务和项目。
以上是关于大数据增长,Apache Hadoop是基础军团的主要内容,如果未能解决你的问题,请参考以下文章