CTO视角解读:国外企业部署Hadoop到底犹豫什么?

Posted ITPUB

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CTO视角解读:国外企业部署Hadoop到底犹豫什么?相关的知识,希望对你有一定的参考价值。

CTO视角解读:国外企业部署Hadoop到底犹豫什么?

      

随着“Hadoop是否已失宠”的选题调研进程过半,国内外企业以及厂商的观点确实存在很大分歧,有人认为是国外Hadoop厂商所提供的服务以及架构不如国内厂商完善,也有观点表明国外大部分企业的数据量根本达不到使用Hadoop的层级,因此对Hadoop比较冷漠。那么,事实到底是什么样的呢?

CTO视角解读:国外企业部署Hadoop到底犹豫什么?

CTO视角解读:国外企业部署Hadoop到底犹豫什么?

本期嘉宾:Ness SES的CTO Moshe Kranc,Silicon Valley Data Science的CTO John Akred,戴尔EMC首席解决方案架构师Boni Bruno以及多位 CIOReview嘉宾。

开源仅打开了价格大门:Hadoop搭建依旧困难重重!


我们一直在强调Hadoop的灵活性、可扩展性,但却忘了Hadoop诞生之初就是为了解决海量数据处理问题的。Hadoop框架最核心的就是HDFS和MapReduce,一个解决了海量数据存储,一个解决了海量数据计算。根据CIOReview嘉宾的观点,在国外企业看来,Hadoop开源虽然降低了购买成本,但整个搭建部署成本并不低。


  

Facebook、YouTube、雅虎等财富排名在前50的企业基本都部署了Hadoop,但是有一些情况是不适合使用Hadoop的,比如: 

1、实时数据处理分析场景


Hadoop最擅长且最专注的就是批处理,对于实时数据处理分析的需求,Hadoop完整分析的响应时间会很久。Dstillery首席科学家Claudia Perlich表示,如果需要在30毫秒内查找拥有3亿人的数据库中的某些信息,Hadoop无法做到快速响应这一需求。

2、小型数据集处理


对于小型数据集的处理需求,现在有很多可用的工具,比如Excel,RDBMS等,使用Hadoop是十分不明智的,这会浪费掉大量资源,导致整个使用成本非常高。 

3、取代现有基础设施


Hadoop为大数据领域提供了智能存储解决方案,但是如果你抱着取代现有基础设施的念头,那还是不要部署Hadoop了,将Hadoop视为可替代现有数据分析基础架构的想法并不明智。通常,企业会选择与数据仓库结合使用以获得最大收益。 

4、技术门槛


尽管Hadoop开源且拥有相当活跃和庞大的社区,但对企业而言,技术门槛这关并不是好迈的。Hadoop的MapReduce和HDFS固然好,但是搭建这些架构是需要具备相当专业的技术知识和实力的。近几年,大数据相关专业人才更是身价倍增,企业如果想要招聘相关技术专家,需要付出相当高的人力成本。为了保证企业海量数据安全平稳得运行,企业还需要花费成本建立运维和数据安全团队,这部分成本是没办法忽略的。


5、机器学习能力欠缺


AI时代,这一缺点变得非常致命。Ness SES的CTO Moshe Kranc认为,Hadoop已经展示出了其年代感,不管是Hadoop的HDFS、MapReduce还是它的机器学习组件Mahout。在这一方面,Spark似乎表现更加优异,Spark不断从Hadoop的经历中学习,具有更通用和可扩展的编程模型,易于分析且拥有强大的图形数据库(Graphx)和全功能数据科学库(MLib)。当然,如果企业自己具备生态整合的能力,那么这个问题可能就不存在了。

CTO视角解读:国外企业部署Hadoop到底犹豫什么?


▲Ness SES的CTO Moshe Kranc

  

如果只学会了用Hadoop存储大量数据,那么毫无意义!


对国外企业而言,糟糕的用户体验很可能是因为并没有发挥出Hadoop的优势,Hadoop这样的分布式系统在海量数据处理方面的优势毋庸置疑,但是为什么很多企业并不看好它呢?


CTO视角解读:国外企业部署Hadoop到底犹豫什么?

▲Silicon Valley Data Science的CTO John Akred


Silicon Valley Data Science的CTO John Akred表示,在国外,无论是医疗保健、制造业还是金融领域,公司在部署Hadoop这样的分布式系统时一般会选择从初始用例也就是简单用例开始,以便了解整个Hadoop的工作流程。公司可能会开始尝试将部分数据收集并运行到Hadoop之上,通过简单的测试证明,确实可以使用Hadoop来存储大量非结构化数据,到这里所有步骤似乎都没有问题,但这真的对业务产生价值了吗?如果企业并没有通过部署Hadoop而对业务产生价值,那么这一决策的意义是什么呢?


其次,很多企业会低估Hadoop的操作复杂性,无法清晰认知习惯了使用IBM Db2和Oracle等传统数据技术的人在使用Hadoop方面会面临多少转型问题。

  

戴尔EMC的Boni Bruno:推动Hadoop建设的三大关键因素!


通篇,我们不难发现,国外大部分企业之所以会拒绝部署Hadoop,一部分原因是自身数据量尚未达到海量规模,一部分是部署和使用方式有误。Boni Bruno表示,戴尔EMC已经帮助不少企业成功部署了Hadoop大数据分析解决方案,其不少客户对于Hadoop还是极其关心的,Boni Bruno认为企业采用Hadoop有三大关键驱动因素:


CTO视角解读:国外企业部署Hadoop到底犹豫什么?


▲戴尔EMC首席解决方案架构师Boni Bruno

  

1、企业数据仓库优化


随着数据量的增加,许多CIO会发现企业数据仓库(EDW)的容量正在逐渐耗尽,导致数据加载处理时间过长,SLA得不到满足,最终影响关键业务的智能交付。通过将资源密集型ETL流程迁移到Hadoop,CIO可以在其EDW上释放宝贵的CPU周期并提高性能。通过将冷数据迁移至Hadoop,可以节省资金并释放容量降低成本。事实上,与EDW系统中不可用的其他数据结合时,可以挖掘Hadoop中的冷数据以获得额外的业务洞察。使用外部系统日志、社交媒体、安全数据等分析冷数据,使用Hadoop优化EDW,可为CIO降低成本,改进报告并支持更多类型的非结构化数据。

2、流式分析和物联网


以Hortonworks Data Flow或IBM Streams为例,CIO可根据需要向Hadoop集群添加和调整数据源,跟踪和审计数据路径,并使用可用带宽动态调整数据管道。关键是可以探索、优化和变换数据,比如支付跟踪、定价、消费者反馈、收缩分析、客户行为等,从而优化整个供应链、客户支持、库存控制、供应商记分卡等。转变业务模式,主动配置人员,改进目标供应,并使用预测分析增强各种其他业务流程。

3、安全分析和威胁检测


Hadoop的安全分析和威胁检测用例日益增长。在Netflow流、日志流、数据流和存储数据上使用机器学习算法和数据分析,公司可以识别复杂的威胁载体并主动修复攻击。从欺诈检测到数据窃取,Hadoop提供了一个完整的平台,可处理全套遥测数据,实现高级关联并为先期威胁提供单一视图。


以上这些国外企业在搭建Hadoop时遇到的问题也侧面证实了Gartner“Hadoop即将在到达生产成熟期之前衰落”的结论,因为整个报告的调查主体相对来说更偏向于国外企业,这些企业对Hadoop的态度直接影响了Gartner的结论,而上述这些问题放在国内的大数据环境又会发生很多变化,这也让国内不少企业无法相信Hadoop失宠言论。

以上是关于CTO视角解读:国外企业部署Hadoop到底犹豫什么?的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop2.X分布式集群部署

到底什麽是区块链 Blockchain ?

国外银行 Hadoop 态度调查,Gartner 所言非虚!

行业动态Hadoop十年解读与发展预测(技术篇)

2021年大数据Hadoop:Hadoop国内外应用

观点解读:Hadoop可能衰落,但核心组件的生命力依旧旺盛!