盘点六种常用的大数据分析工具
Posted 大数据与数据科学家
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了盘点六种常用的大数据分析工具相关的知识,希望对你有一定的参考价值。
1. Hadoop
Hadoop是我们最耳熟能详的一种大数据分析分析,它是一个能够让用户轻松架构和使用的分布式计算平台。用户可以在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:
●高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。
● 高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
● 高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
● 高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。
2. HPCC
作为Hadoop之外的一种选择,HPCC是一个利用集群服务器进行大数据分析的系统,它已在LexisNexis内部使用多年,是一个成熟可靠的系统,包含一系列的工具、一个称为ECL的高级编程语言以及相关的数据仓库,扩展性超强。
3. Storm
Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架,它的编程模型简单,能极大降低实时处理的难度,也是当下极具人气的流计算框架之一。与其他计算框架相比,Storm最大的优点是能达到毫秒级低延时。
4. Apache Drill
Drill是由Apache推出的,让用户可以使用基于SQL的查询,查询Hadoop、NoSQL数据库和云存储服务。它能够运行在上千个节点的服务器集群上,且能在几秒内处理PB级或者万亿条的数据记录。它可用于数据挖掘和即席查询,支持一系列广泛的数据库,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、AzureBlob Storage、谷歌云存储和Swift。
5. RapidMiner
RapidMiner具有丰富数据挖掘分析和算法功能,常用于解决各种的商业关键问题,解决方案覆盖各个领域,包括汽车、银行、保险、生命科学、制造业、石油和天然气、零售业及快消行业、通讯业、以及公用事业等。
6. Pentaho BI
Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的、面向解决方案的框架。它可以将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现使得一系列面向商务智能的独立产品(如Jfree、Quartz等)能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。
(责任编辑:王雨茁)
主编:王宏志
特邀副主编: 朱劼
副主编: 丁小欧
责任编辑: 齐志鑫,王雨茁,陈柯昊
编辑: 陶颖安
长按下图并点击 “识别图中二维码”,即可关注大数据与数据科学家微信公共号
以上是关于盘点六种常用的大数据分析工具的主要内容,如果未能解决你的问题,请参考以下文章