大数据必备的工具

Posted 2021-04-26 大数据学习日志

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据必备的工具相关的知识，希望对你有一定的参考价值。

到2020年，每人将产生1.7兆每秒的数据量。

那将有很多信息要处理。

幸运的是，有很多开发人员正在创建我们需要的软件来布署数据环境。

大数据必备的工具

前十多年，大数据的发展主要集中在技术框架上，社区出现了一系列优秀的作品，如最开始引领大数据风潮的 Hadoop，到计算引擎 Spark、Flink ，消息中间件 Kafka ，以及资源调度器 Kubernetes 等等，大数据领域的技术框架已经比较成熟。

通过开源架构策略，现代化数字企业逐渐意识到自己的目标是通过业务实现数据的价值化，未来将会把更多的精力投向研究底层数据消费和上层的产品应用。

2019 年 6 月，谷歌以 26 亿美元收购了数据分析公司 Looker。同月，Salesforce 宣布以 157 亿美元收购 BI 企业 Tableau 。2019 年 9 月，Cloudera 宣布收购商业智能实时分析厂商 Arcadia Data。这些收购案例都说明企业的目标开始转向解读所积累的海量数据。

赋能业务，快速应对挑战，正是数据湖所能提供的。数据湖的概念，最早是在 2011 年由 Dan Woods 提出，”是一个集中化存储海量的、多个来源，多种类型数据，并可以对数据进行快速加工，分析的平台，本质上是一套先进的企业数据架构“。

例如在社交广告中的用户画像，需要行为日志等非结构化数据，经过层层数据加工形成业务价值。以后也会延伸到图像、语音等类型。这些就是数据湖能提供的特别优势。

Apache Ozone 项目是由大数据公司 Hortonworks 贡献出来的，最初是为了解决 Hadoop 系统中的对象存储问题。

面对 Hadoop 向云上发展的方向，腾讯选择了在一年多前正式加入 Ozone，组了一支队伍，利用腾讯的业务场景和数据规模，进行协同开发，扩展成数据湖存储，并推进技术落地。

很多开发人员正在创建我们需要的软件来布署数据环境。

5.Apache Kafka

Kafka是Apache认可的实时处理和管理数据的大数据工具。Kafka经久耐用、容错且可扩展，最初是由领英开发的，旨在帮助他们克服批处理问题。Kafka平台处理传入的数据流，而不管它们的目的地或来源。

有了Kafka，公司每天可以处理无数的事件。此外，领英报道说他们的Kafka体系每天管理大约1万亿起事件。特点包括:

管理记录流
在数据流出现时对其进行处理
以持久、容错的方式存储信息
访问核心APIs以扩展kafka的能力

4.Cloudera

Cloudera宣称自己是“企业数据云公司”。云时代旨在为您提供对数据的更多控制，确保您能够从边缘收集和处理信息，一直到您的机器学习应用程序。

Cloudera还为公司提供了使用Cloudera数据流摄取、分析和管理实时流数据所需的工具。除此之外，还可以通过数据仓库将来自不同来源的数据汇集在一起。特点包括:

收集和分析来自多个数据流的数据
利用云时代数据仓库管理和转换您的信息
构建、部署和扩展机器学习解决方案
从边缘收集和处理数据
访问实时洞察

3.Apache Cassandra

得到了Datastax等市场领导者的认可，Apache Cassandra是一个分布式数据库，企业可以使用它来管理多台服务器上的大量数据集。作为管理结构化数据的最佳大数据工具之一，Cassandra提供高可用性服务，没有任何单点故障。

当您需要高可用性和可扩展性而又不影响性能时，Cassandra是一个绝佳的选择。Cassandra还支持跨多个数据中心进行复制，因此为用户提供了更低的延迟。特点包括:

容错数据管理
为了更好的内心平静，没有单点失败
可扩展的高可用性数据管理
在异步复制和同步复制之间进行选择
提供第三方服务

2.Apache Flink

Flink是一个开源框架，由 Ververica 商业公司主导。有了 Flink，企业可以访问分布式流处理引擎，在无界或有界环境中计算数据。

此外，这个工具的一大优点是它可以运行在您可以想到的所有集群环境中，包括Hadoop、Kubernetes和Apache Mesos。Flink特性还包括:

在几个抽象层次上访问有用的APIs
提供灵活的窗口
支持各种第三方连接器
容错性能和故障恢复

1.Apache Spark

最后，Apache Spark，对于使用大数据的公司来说，它是业内最令人兴奋的工具之一。这个开源工具填补了Hadoop解决方案在数据处理、实时和批处理数据方面的空白。Spark在处理数据的速度上比传统工具快得多，这对于数据分析师来说是非常好的。

Spark是已经使用Apache解决方案(如Cassandra或Flink)的公司的理想之选，它使您的数据处理项目的核心更加高效和有价值，有助于调度和分布式任务传输等工作。特点包括:

高速工作负载
易于使用的功能
访问实时和批量数据处理
在Hadoop、Kubernetes、独立或云中运行Spark

这是一个有温度的公众号