Linux-Bigdata

Posted suhaohao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Linux-Bigdata相关的知识,希望对你有一定的参考价值。

总结一下大数据开发基本常识

JDK(做java开发必备的开发工具包)

Hadoop(Apache开发的分布式系统的基础框架)三大组件:MapReduce,Yarn,Hdfs

Sqoop(数据迁移,清洗)

Kettle(数据清洗,格式转换)

Hive(基于Hadoop的数据仓库,并不是数据库,需要安装mysql和驱动包)

Flume(Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统)

Redis(一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API)

Zookeeper(一个分布式的,开放源码的分布式应用程序协调服务)

Azkaban(Linkedin开源的一个批量工作流任务调度器)

Hbase(一个分布式的、面向列的开源数据库)

Kafka(Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写)

Kylin(Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区,它能在亚秒内查询巨大的表)

Phoenix(构建在HBase上的一个SQL层)

Scala(是一门多范式的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性)

Spark(Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎)

次文章为个人所用,即学即用,努力。

以上是关于Linux-Bigdata的主要内容,如果未能解决你的问题,请参考以下文章