hadoop的发展和介绍
Posted zfszhangyuan
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop的发展和介绍相关的知识,希望对你有一定的参考价值。
今天整好有这个时间,我就整理整理一下hadoop相关的资料,想初步简略的谈一下hadoop的发展史和应用情况。
说到hadoop不得不说一下大数据。
什么是大数据?
网上搜了一圈基本都是说数据量大,有价值的数据就叫大数据,这么说也不错,但是很抽象,很笼统,我总结了一下大数据最起码具备四个方面的特征:
第一:体量大(volume)数据规模庞大,传统的数据库无法存储和计算,而且直接原因是非结构化的数据的超大规模增长。
第二:多样性(variety) 大数据的异构性和多样性,庞大体量的数据他们的存在是不同形式的(文本,图像,视频,机器数据等,有模式或者模式不是很明显的)。
第三:数据价值密度(value)这些大体量的数据蕴含着对业务对未来趋势与模式的可预测分析的价值,提供深度分析,机器学习和人工智能的基础。
第四:速度(velocity)如果仅仅是这些数据放在那里对我们业务或者未来一点作用都没有,必须要能提供快速批量甚至实时的分析。
最后总结一下:大数据就是体量庞大,存储形态各异,蕴含着对现有业务状态的分析以及未来趋势预测的高价值数据,我们能够应用这些数据,进行批量处理分析,机器挖掘,人工智能等实现对业务提升或者对未来趋势的预测等有价值的成果输出。
大数据已经不再是静态的数据,而是安装了大脑的能完成决策和成果输出的有机体。
hadoop生态体系架构的就是大数据的大脑。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
Hadoop的创建者是Dong Cutting,其设计思想来源Google的三篇论文:GFS,MapReduce,BigTable
发展历程:
2013年2月,Wandisco推出了世界第一款可用于实际业务环境的Apache Hadoop 2 -WANdiscoDistro(WDD)。
2011年12月27日--1.0.0版本释出。标志着Hadoop已经初具生产规模。
2009年4月-- 赢得每分钟排序,59秒内排序500 GB(在1400个节点上)和173分钟内排序100 TB 数据(在3400个节点上)。
2009年3月-- 17个集群总共24 000台机器。
2008年10月-- 研究集群每天装载10 TB的数据。
2008年4月-- 赢得世界最快1 TB数据排序在900个节点上用时209秒。
2007年4月-- 研究集群达到两个1000个节点的集群。
2007年1月-- 研究集群到达900个节点。
2006年12月-- 标准排序在20个节点上运行1.8个小时,100个节点3.3小时,500个节点5.2小时, 900个节点7.8个小时。
2006年11月-- 研究集群增加到600个节点。
2006年5月-- 标准排序在500个节点上运行42个小时(硬件配置比4月的更好)。
2006年5月-- 雅虎建立了一个300个节点的Hadoop研究集群。
2006年4月-- 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。
2006年2月-- 雅虎的网格计算团队采用Hadoop。
2006年2月-- Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。
2006年1月-- Doug Cutting加入雅虎。
2005年12月-- Nutch移植到新的框架,Hadoop在20个节点上稳定运行。
2004年-- 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。
hadoop的特点:
1、高可靠性:hadoop按位存储和处理数据的能力值得人们信赖(由多个节点组成,每份数据都存储在不同节点上至少三份)
2、高扩展性:hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可以方便的扩展到数以千计个。
3、高效性:hadoop能够节点之间动态移动数据,并保证各个节点的动态平衡,而且能多节点协同工作,因此处理速度非常快。
4、高容错性:hadoop能够自动保存数据多个副本,当监听到某个副本不能工作后会自动进行复制,也会自动将失败的任务重新分配。
hadoop的子项目有:
HBase: 类似Google BigTable的分布式NoSQL列数据库。
Hive:数据仓库工具,由Facebook贡献。
Zookeeper:分布式锁设施, 供类似Google Chubby 的功能,由Facebook贡献。
Avro:新的数据序列化格式与传输工具,将逐步取代 Hadoop原有的IPC机制。
Pig:大数据分析平台,为用户 供多种接口。
Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。
Sqoop:于在HADOOP与传统的数据库间进行数据的传 递。
FlumeNG:日志收集工具
Impala:Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具
Presto:Presto是Facebook开发的数据查询引擎,可对250PB以上的数据进行快速地交互式分析。
当前hadoop使用场景介绍:
奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop集群并进行下载。
京东、百度:存储、分析日志、数据挖掘和机器学习(主要是推荐系统)。
广告类公司:存储日志,通过协调过滤算法为客户推 荐广告。
Yahoo:垃圾邮件过滤。
华为:云计算平台。
某学校:学生上网与社会行为分析,使用Hadoop。
淘宝、阿里巴巴:国内使用Hadoop最深入的公司, 整个淘宝和阿里巴巴都是数据驱动的
以上是关于hadoop的发展和介绍的主要内容,如果未能解决你的问题,请参考以下文章