什么时候数据大到可以使用 Hadoop? [关闭]

Posted

技术标签:

【中文标题】什么时候数据大到可以使用 Hadoop? [关闭]【英文标题】:When is data big enough to use Hadoop? [closed] 【发布时间】:2015-09-11 19:50:05 【问题描述】:

我的雇主运行 Hadoop 集群,由于我们的数据很少超过 1GB,我发现很少需要 Hadoop 来满足我们办公室的需求(这不是大数据),但我的雇主似乎想要能够说我们正在使用我们的 Hadoop 集群,因此我们正在积极寻找需要使用我们的大型工具进行分析的数据。

我看到一些报告说小于 5tb 的任何东西都不应该使用 hadoop。 Hadoop 成为数据分析的实用解决方案的神奇规模有多大?

【问题讨论】:

作为一个简单的经验法则,如果您可以将数据放入托管在单台机器上的数据库中,那么您就没有大数据,也不需要 Hadoop。 1GB 不是大数据。 5TB 正在接近,但仍可能在单台机器上处理。 Hadoop适用于当您拥有如此多的数据以进行处理时,您需要将其分解为块并在多台机器上进行处理。如果您可以将其安装在单个数据库中,那么这样做总是更好。 Hadoop 不是数据库替代品。 【参考方案1】:

没有像魔术大小这样的东西。 Hadoop 不仅仅是关于数据量,它还包括资源和处理“成本”。与解析文本文件相比,一个图像可能需要大量内存和 CPU 的过程不同。并且 haoop 被用于两者。

要证明使用 hadoop 的合理性,您需要回答以下问题:

您的流程是否能够在一台机器上运行并按时完成工作? 您的数据增长速度有多快?

每天读取一次 5TB 以生成报告与每秒读取 1GB 十次来自面向客户的 API 不同。但是如果你以前没有遇到过这类问题,很可能你不需要使用 hadoop 来处理你的 1GB :)

【讨论】:

以上是关于什么时候数据大到可以使用 Hadoop? [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

玩大数据,应该在什么时候使用Hadoop?

大数据:Hadoop入门

大数据:Hadoop入门

hadoop IO操作

Hadoop 与 NoSQL 数据库

数据仓库和Hadoop大数据平台有什么差别?