Linux-Bigdata

Posted 2021-03-05 suhaohao

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Linux-Bigdata相关的知识，希望对你有一定的参考价值。

总结一下大数据开发基本常识：

JDK（做java开发必备的开发工具包）

Hadoop（Apache开发的分布式系统的基础框架）三大组件：MapReduce，Yarn，Hdfs

Sqoop（数据迁移，清洗）

Kettle（数据清洗，格式转换）

Hive（基于Hadoop的数据仓库，并不是数据库，需要安装mysql和驱动包）

Flume（Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统）

Redis（一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API）

Zookeeper（一个分布式的，开放源码的分布式应用程序协调服务）

Azkaban（Linkedin开源的一个批量工作流任务调度器）

Hbase（一个分布式的、面向列的开源数据库）

Kafka（Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写）

Kylin（Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供Hadoop/Spark 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由 eBay 开发并贡献至开源社区，它能在亚秒内查询巨大的表）

Phoenix（构建在HBase上的一个SQL层）

Scala（是一门多范式的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性）

Spark（Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎）

次文章为个人所用，即学即用，努力。

以上是关于Linux-Bigdata的主要内容，如果未能解决你的问题，请参考以下文章