资源共享21 类 Hadoop 学习资源 帮你超越74.3%的同行

Posted 全球人工智能

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了资源共享21 类 Hadoop 学习资源 帮你超越74.3%的同行相关的知识,希望对你有一定的参考价值。

  

---------- 全球人工智 ----------


Hadoop是一个由Apache基金会所开发的开源分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储。

本资源蘩漪子GitHub Awesome Hadoop资源,涵盖Hadoop中常见的库与工具、存储方式、数据库,以及相关的书籍、网站等资源。


Hadoop

  • 它是一个针对Hadoop数据处理应用程序的新分布式执行框架,该框架基于YARN;

  • SpatialHadoop是Apache Hadoop的MapReduce扩展,专门用于处理空间数据;

  • 用于Hadoop框架的大数据空间分析;

  • Elasticsearch与Hadoop深度集成,可用于实时搜索和分析,支持Map/Reduce、 Cascading、Apache Hive和Apache Pig;

  • Python模块,使Hadoop程序的编写和运行更为容易;

  • 用Cython写的Python MapReduce库;

  • mrjob是一个Python2.5+程序包,可以帮助编写和运行Hadoop工作流;

  • 为Hadoop提供Python API的程序包;

  • Hadoop分布式文件系统(HDFS)的交互可视化;

  • Hadoop的日志聚合器和仪表板;

  • Genie提供REST-ful API,以便运行Hadoop、Hive和Pig jobs,还管理多个Hadoop资源,并在它们之间进行作业提交;

  • 最初来自eBay公司的开源分布式分析引擎,能提供Hadoop之上的SQL查询接口及多维分析(OLAP),以支持超大规模数据集;

  • 基于Go的工具包,用于在Hadoop上的ETL和特征提取;

  • 分布式内存平台。


YARN

  • Apache Slider是Apache软件基金会的孵化项目,旨在能够轻松地实现现有应用程序到YARN集群的部署;

  • Apache Twill是Apache Hadoop? YARN的抽象层,降低了开发分布式应用程序的复杂度,让开发者更专注于自己的应用逻辑;

  • 在YARN上运行MPICH2。


NoSQL

下一代数据库大多定位于以下几点:非关系型、分布式、开放源码和横向扩展。

  • Apache HBase;

  • Hbase的SQL驱动,支持辅助索引;

  • 一个开发者友好型的Python库,用于Apache HBase的交互;

  • 用于监测和维护HBase 集群的工具;

  • 用于HBase的线性可扩展多行多表交易库;

  • Hbase的辅助索引;

  • Apache Accumulo可排序分布式键/值存储,是一个强大的、可扩展高性能数据存储和检索系统;

  • 可扩展时间序列数据库;


Hadoop中的SQL

  • Hbase的SQL驱动,支持辅助索引;

  • Hadoop上的并行数据库;

  • 用于级联的SQL接口(MR / TEZ工作发生器);

  • 用于大数据的分布式SQL查询引擎,该查询引擎由Facebook开发,现已开源;

  • Apache Hadoop的数据仓库系统;


数据管理

  • 动态数据管理框架;

  • 用于元数据标记及类群捕获,支持复杂的商业数据分类。 


工作流,生命周期及管理

  • Apache Oozie;

  • 数据管理与处理平台;

  • 数据流系统;

  • AirFlow是以编程方式建立、调度和监控数据管道的平台;

  • Python包,用于构建批处理作业的复杂管道。


数据提取及整合

  • Apache Flume;

  • Netflix分布式数据管道;

  • Apache Sqoop;

  • Apache Kafka;

  • Hadoop的通用数据提取框架;


DSL

  • Apache Pig

  • Hadoop中用于处理大规模数据的库的集合;

  • 基于Apache Pig的机器学习和自然语言处理;

  • 用于开源大数据安全性分析;

  • Mozilla的实用工具库,用于Hadoop、HBase、Pig等等;

  • Hadoop中用于大型定序数据集的简单可扩展脚本(bioinfomation除外);

  • Pig工作流程可视化工具;

  • PigPen 是Clojure或分布式Clojure的Map-reduce,能够编译Apache Pig,但是不需要过多了解Pig也可以使用PigPen。


库和工具

  • 一组库、工具、示例和文档;

  • Apache Hadoop YARN的本地Go客户端;

  • 用Apache Hadoop分析数据的Web界面;

  • 基于Web的笔记,可进行交互式数据分析;

  • Jumbune是为分析Hadoop集群和MapReduce作业而构建的开源产品;

  • Apache Avro是一个数据序列化系统;

  • Twitter中LZO、缓冲协议相关的Hadoop、Pig、Hive和HBase代码的集合;

  • Eclipse中用于编辑Apache Oozie工作流的图形编辑器。


实时数据处理

  • Apache Flink是高效的分布式通用数据处理的平台,用于精准的流处理。


分布式计算和编程

    • Apache Spark中程序包的community(社区)索引;

    • Apache Spark的社区;

  • Cascading是在Hadoop上构建数据应用的成熟的应用开发平台;

  • Apache Flink是高效的分布式通用数据处理的平台;

  • 企业级的统一流处理和批处理引擎。 


包装,配置与监测

  • 用于Apache Hadoop生态系统的包装和测试;

  • Apache Ambari

  • 一个大数据集群管理工具,用于创建和管理不同的技术集群;

  • Apache Zookeeper

  • 用于ZooKeeper的客户端简化包装和丰富ZooKeeper框架;

  • Hadoop生态系统生成器;

  • Hadoop的部署系统;

  • 一个用于开源MapReduce分析,MapReduce流程调试,HDFS数据质量校验和Hadoop集群监测的工具;

  • Inviso是一个轻量级的工具,它提供搜索Hadoop作业,可视化性能,查看集群利用率的能力。


搜索

  • 开源、分布式、实时、半结构化的数据库;

  • Apache Solr的Kibana端口。


搜索引擎框架

  • Apache Nutch是一个高度可扩展的,可伸缩的开源网络爬虫软件项目。


安全性

  • Ranger是一个框架,能够跨Hadoop平台启用、监控和全面管理数据安全性;

  • Hadoop的一个授权模块;

  • 用于与Hadoop集群交互的REST API网关。


基准

  • 一个测试平台,用于进行任何规模数据的Apache Hive实验;

  • 雅虎云服务基准(YCSB)是一个开源规范和程序套件,用于评估计算机程序的检索和维护功能;它常被用于比较NoSQL数据库管理系统的相对性能。


机器学习和大数据分析

  • 基于Spark、Kafka的Lambda架构,用于实时大规模的机器学习;

  • MLlib是Apache Spark的可扩展机器学习库;

  • R是用于统计计算和图形的自由软件环境;

  • 包括RHDFS、RHBase、RMR2和plyrmr;

  • 用于从R中开始Hive查询;


其它

  • Hive Plugins

    • WebUI for query engines: Hive and Presto

    • Clojure library for interacting with Hive via Thrift

    •  (Perl - HiveServer2)

    • Python interface to Hive and Presto

    • An Open Source unit test framework for hadoop hive queries based on JUnit4

    • A super simple utility for testing Apache Hive scripts locally for non-Java developers.

    • - Unit test framework for hive and hive-service

    • JSON

    • Twitter

    •  (PostgreSQL translate())

    •  (Machine Learning UDF/UDAF/UDTF)

    •  (GeoIP UDF)

    • UDF

    • Storage Handler

    • SerDe

    • Libraries and tools

  • Flume Plugins

    • Custom sinks: Cassandra, MongoDB, Stratio Streaming and JDBC


资源

还有各种书籍、网站和文章等相关的资源,列表如下:

网站

有用的网站和文章

  • (译:Hadoop周刊)

  • (译:Hadoop生态系统表)

  • (译:Hadoop的1.x vs 2)

  • (Apache Hadoop YARN:另一种资源谈判)

  • (译:Apache Hadoop YARN简介)

  • (译:Apache Hadoop YARN——背景和概述)

  • (译:Apache Hadoop YARN——概念与应用)

  • (译:Apache Hadoop YARN - ResourceManager)

  • (译:Apache Hadoop YARN - NodeManager)

  • (译:迁移到YARN上的MapReduce 2(针对用户))

  •  (译:迁移到YARN上的MapReduce 2(针对运营商))

  • (译:Hadoop和大数据:Salesforce.com中的用例)

  • (译:你想了解却不敢询问的Hadoop知识:大象的家谱)

  • (译:什么是Bigtop?为什么要关注Bigtop?)

  • (译:Hadoop的分布和商业支持)

  • (译:小型Hadoop集群的Ganglia配置和检修)

  • Open Source Hadoop Book(译:Hadoop启示——开源Hadoop书)

  • (译:NoSQL数据库)

  • (译:Apache Hive的10个最佳实践)

  • (译:AWS大数据博客)


演示

  • Slide decks from Hadoop Summit(译:Hadoop的峰会展示)

  • (译:Apache Hadoop Yarn更新实例)

  • (译:Apache Hadoop的理论和实践)

  • (译:Hadoop在LinkedIn的操作)

  • (译:Hadoop在LinkedIn的性能)

  • (译:基于Docker的Hadoop配置)


书籍

  • (译:Hadoop权威指南)

  • (译:Hadoop运营)

  • (译:Apache Hadoop Yarn)

  • (译:HBase权威指南)

  • (译:Pig程序设计)

  • (译:Hive程序设计)

  • (译:Hadoop实践,第二版)

  • (译:Hadoop实战,第二版)


Hadoop & 大数据事件


附:学习计算机系统必看的五本书


《深入理解计算机系统》

(原书第3版)


【资源共享】21 类 Hadoop 学习资源 帮你超越74.3%的同行

书籍简介

ISBN:978-7-111-54493-7

译者:龚奕利 贺莲 译

定价:139.00

出版时间:2016/11


计算机系统入门的经典书籍,从程序员视角全面剖析的实现细节,使读者深刻理解程序的行为,将所有计算机系统的相关知识融会贯通。第3版相较上一版内容上最大的变化是,从以IA32和x86-64为基础转变为完全以x86-64为基础。主要更新如下:

  • 基于x86-64,大量地重写代码,首次介绍对处理浮点数据的程序的机器级支持。

  • 处理器体系结构修改为支持64位字和操作的设计。

  • 引入更多的功能单元和更复杂的控制逻辑,使基于程序数据流表示的程序性能模型预测更加可靠。

  • 扩充关于用GOT和PLT创建与位置无关代码的讨论,描述了更加强大的链接技术(比如库打桩)。

  • 增加了对信号处理程序更细致的描述,包括异步信号安全的函数等。

  • 采用新函数,更新了与协议无关和线程安全的网络编程。


《计算机系统概论》

(原书第2版)


【资源共享】21 类 Hadoop 学习资源 帮你超越74.3%的同行



书籍简介

ISBN:978-7-111-21556-1

译者:梁阿磊,蒋兴昌,林凌译

定价:49.00

出版时间:2007/07


计算机系统的另一本经典著作,作者是与Donald E. Knuth齐名的美国计算机界泰斗级专家Yale N. Patt。本书站在计算机整体系统的高度将软硬件连贯起来进行阐述,强调对软硬件结合的理解,从硬件的基本构件一直讲到软件的高级程序设计与构造,使读者在学习过程中能够将软硬件融会贯通、相互印证。

  本书最大的特点是其提倡的层次转换概念,即从问题开始到计算机运算出结果可以分为七个层次。通过七个层次的转换,即可完成从问题到结果的转变。


《计算机系统》

系统架构与操作系统的高度集成


【资源共享】21 类 Hadoop 学习资源 帮你超越74.3%的同行

书籍简介

ISBN:978-7-111-50636-2

译者:陈文光 等译

定价:99.00

出版时间:2015/07


美国佐治亚理工学院的教材。与《深入理解计算机系统》从程序员视角来讲解计算机系统,内容偏向系统软件(特别是操作系统)不同,本书在计算机系统结构和操作系统的内容基本平衡,旨在让读者了解计算机体系结构和系统软件之间的关系,为进一步深入学习计算机体系结构、操作系统和网络的高级课程打下基础。


《计算机系统》

核心概念及软硬件实现(原书第4版)


【资源共享】21 类 Hadoop 学习资源 帮你超越74.3%的同行

书籍简介

ISBN:978-7-111-50783-3

译者:龚奕利 译

定价:79.00

出版时间:2015/07


本书用一个虚拟的计算机系统Pep/8系统展示了计算机系统的7个抽象层次:应用层、高级语言层、汇编层、操作系统层、指令集架构层、微代码层和逻辑门层,最大的特色就是着眼于计算机软件和硬件系统背后的设计原理,而这些原理数年来都未曾改变过。而且,去除那些眼花缭乱的新技术的表象,能够更好地看清和理解系统的本质。


计算机系统基础

袁春风 编著 


书籍简介

ISBN:978-7-111-46477-8

定价:49.00

出版时间:2014/07


作者对美国麻省理工学院、加州大学伯克利分校、斯坦福大学、卡内基梅隆大学等著名大学与计算机系统有关的课程进行了深入的对比分析后,结合我国学生的基础和需求编写的本土化教程。

-END-


以上是关于资源共享21 类 Hadoop 学习资源 帮你超越74.3%的同行的主要内容,如果未能解决你的问题,请参考以下文章

入计算机专业的师弟师妹,别再迷茫了,我整理一份CS的学习路线大全!帮你超越大部分的同学!

Hadoop学习笔记—21.Hadoop2的改进内容简介

Oracle性能优化之资源管理_超越OCP精通Oracle视频教程培训36

Spark:超越Hadoop MapReduce

Spark:超越Hadoop MapReduce

Spark:超越Hadoop MapReduce