DBA眼中的最优大数据处理工具,哪一款是你的菜?

Posted ITPUB

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DBA眼中的最优大数据处理工具,哪一款是你的菜?相关的知识,希望对你有一定的参考价值。

联网改变了人们获取信息的方式,大数据不断推动着商业模式及行为的变化,大环境不断变化。磨刀不误砍柴工,面对庞大的需要处理的数据资源,手中无利器可用怎么行。那么,在DBA眼中,什么样的大数据处理工具最好?近年来较受欢迎的Hadoop、Storm、RapidMiner、Pentaho BI、Apache Drill、HPCC,哪一个是你的菜?
DBA眼中的最优大数据处理工具,哪一款是你的菜?
DBA眼中的最优大数据处理工具,哪一款是你的菜?
DBA眼中的最优大数据处理工具,哪一款是你的菜?
DBA眼中的最优大数据处理工具,哪一款是你的菜?
您认为,在挑选大数据处理工具时,哪些因素最需要考虑?您使用或了解的优质大数据处理工具是什么?
DBA眼中的最优大数据处理工具,哪一款是你的菜?
网友1983yu

我们这边用的hadoop。考虑的因素:

1、根据数据分析需求。根据不同的用户案例和应用,企业用户可能需要支持不同类型的分析功能,使用特定类型的建模(例如回归、聚类、分割、行为建模和决策树)。大数据分析工具能够广泛支持高水平、不同形式的分析建模,是否能满足自身的数据分析需求,都是重要的考量。在了解大数据分析工具之前,不妨先明确自身的数据分析目标。

2、就是不盲目追求高性能。高性能的大数据分析工具固然优秀,但同时也伴随着高额的部署费用与后期维护费用。而且脱离自身业务需要而一味的追求性能也是不理智的,况且"牛刀杀鸡"不代表就能做的更好。从自身需要出发,不选最好的,只选最适合的。

3、数据兼容性。在多种数据库并存,且数据量大,数据格式多(包括结构和非结构化数据)的情况下,一定要考虑大数据分析工具能否完全兼容。如国云数据的大数据魔镜,除了能够兼容十几种数据格式,还能支持多种格式数据库的数据存取。这并非哗众取宠的画蛇添足,而是基于实际需求的功能拓展。

4、团队协作。企业规模越大,越有可能需要跨部门、在诸多分析师之间分享分析、模型和应用。企业如果有很多分析师分布在各部门,对结果如何进行解释和分析,可能会需要增加更多的共享模型和协作的方法。例如IT部门和业务部门的管理人员需要频繁交流,以确保业务部门的商务智能信息需求始终得以理解和满足

5、预算。当你只有一辆自行车的预算时,就不要考虑汽车的价格。虽然有些残酷,但这就是事实。特别是对于中小企业来说,国外大数据分析工具动辄数十万乃至上百万的部署费用是难以承受的。在资金不足时,可以选择一些低价位或是免费试用的大数据分析工具试试水,比如大数据魔镜的云平台版本,就是免费试用的。
网友xuexiaogang

首先看自己有没有大数据,这个词现在已经烂大街了。中国人,人云亦云的搞得有个几百万数据就是大数据。我之前处理过每天新增1亿的,都不好意思说大。因为和BAT比起来,这连冰山一角都不算。

其实看所在的业务场景适不适合。比如银行交易,如果说这个不算大数据,那能算的也不多,但是用hadoop来处理显然业务场景不合适。

再次看有没有投入,比如用4-5台机器安装hadoop、hbase、zookeeper、hue、hive、pig、还有等等这些,我觉得当实验环境练习和学习是可以的。但是生产环境就算了。分布式处理依靠的就是大量节点分散处理、分担IO。但是4-5台或者3台,根本起不到分担作用。一个小时能处理的job分成3个,还是每个20分钟。距离要求事务在0。1秒的要求来说,根本杯水车薪。

我也就知道hadoop系列的这些还有storm和spark等。这些要考虑学习成本和维护成本,是不是有能力来控制这些技术。
DBA眼中的最优大数据处理工具,哪一款是你的菜?
DBA眼中的最优大数据处理工具,哪一款是你的菜?
其优势在哪?劣势在哪?给大家分享一下您的使用经验和感受。
DBA眼中的最优大数据处理工具,哪一款是你的菜?
网友415829566

hadoop优势的话应该是处理的数据量可以比较大,而且安全机制比较好。劣势的话,应该是处理的时间相对于后面新出的如spark之类的工具来说。

应该是比较慢的,而且MR开发比较难,没有基础很难入门。
网友xuexiaogang

BAT或多或少都用到了大数据,优势真的是很明显,他们是互联网巨头,他们可以处理这些数据,而我们一般的公司没有这个能力。百度架构师曾经说过:“hadoop是给我们用的,不是给你们用的”。一句话导出真谛,说的太好了。头脑清醒的技术人员会选择合适自己的,可控的技术。而不是一味人云亦云。一个公司仅仅几个人如果说对hadoop的开源了解的透彻可以那这个过来随便改了。我觉得不现实。至少国内没有。
hadoop要用在合适的场景下,从oracle到oracle40亿数据移植用了1天,但是如果使用不当,我见过同样场景下从oracle到hbase用了40天。
网友bfmo

在管理使用方面,简化操作流程,传统的ETL工具使用比较简单,可维护性很高。对于海量数据来说,hadoop的分布式优势更强大些。
DBA眼中的最优大数据处理工具,哪一款是你的菜?
DBA眼中的最优大数据处理工具,哪一款是你的菜?
在大数据处理方面,您目前最需要的功能点是什么?针对何种场景?所使用产品是否能够满足?
DBA眼中的最优大数据处理工具,哪一款是你的菜?
网友xuexiaogang

关系型数据库的分布式存储,想redis集群那样,而不是oracle和mysql的dataguard和主从。因为这些都是只有一个写,多个读。最好是所有节点同时提供读写,这样才能发挥出大数据的能力。而关系型数据库缺的就是这个,但是关系型数据库又是无法替代的。

我们场景是互联网金融,那么面对大量移动端用户并发的交易模式,需要大量的并发读写,并且保证高可用,节点故障自动漂移。目前还没有好的解决方案,期待oracle12C的sharding。
DBA眼中的最优大数据处理工具,哪一款是你的菜?
DBA眼中的最优大数据处理工具,哪一款是你的菜?
是否会考虑使用或已经在使用商业大数据云处理平台?甲骨文?IBM?谷歌还是Amazon等等。
网友1983yu

这个都是我们公司自己的,最多用用软件,用人家平台还是要考虑成本问题的啊。

以上是关于DBA眼中的最优大数据处理工具,哪一款是你的菜?的主要内容,如果未能解决你的问题,请参考以下文章

开源的跨平台AI模型部署总有一款是你的菜

开源的跨平台AI模型部署总有一款是你的菜

Flutter 2.2 发布 | 各平台优化类型别名云部署能力UWP Alpha,总有一款是你的菜

APM MONACO 指环篇 ,哪一款是你钟爱的呢?

什么猫咪最受欢迎?Python爬取全网猫咪图片,哪一款是你最爱的

什么猫咪最受欢迎?Python爬取全网猫咪图片,哪一款是你最爱的