Linux-Bigdata
Posted suhaohao
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Linux-Bigdata相关的知识,希望对你有一定的参考价值。
总结一下大数据开发基本常识:
JDK(做java开发必备的开发工具包)
Hadoop(Apache开发的分布式系统的基础框架)三大组件:MapReduce,Yarn,Hdfs
Sqoop(数据迁移,清洗)
Kettle(数据清洗,格式转换)
Hive(基于Hadoop的数据仓库,并不是数据库,需要安装mysql和驱动包)
Flume(Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统)
Redis(一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API)
Zookeeper(一个分布式的,开放源码的分布式应用程序协调服务)
Azkaban(Linkedin开源的一个批量工作流任务调度器)
Hbase(一个分布式的、面向列的开源数据库)
Kafka(Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写)
Kylin(Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区,它能在亚秒内查询巨大的表)
Phoenix(构建在HBase上的一个SQL层)
Scala(是一门多范式的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性)
Spark(Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎)
次文章为个人所用,即学即用,努力。
以上是关于Linux-Bigdata的主要内容,如果未能解决你的问题,请参考以下文章