大约多少半结构化数据足以建立 Hadoop 集群？

Posted 2023-04-18

技术标签:

【中文标题】大约多少半结构化数据足以建立 Hadoop 集群？【英文标题】：What approximate amount of semistructured data is enough for setting up Hadoop cluster? 【发布时间】：2011-01-11 11:37:24 【问题描述】：

我知道，Hadoop 不仅是一般半结构化数据处理的替代品——我可以使用纯制表符分隔的数据和一堆 unix 工具（cut、grep、sed...）和手写来做很多事情蟒蛇脚本。但有时我会得到非常大量的数据，处理时间会长达 20-30 分钟。这对我来说是不可接受的，因为我想动态地试验数据集，运行一些半即席查询等等。

那么，就这种方法的成本结果而言，您认为多少数据足以设置 Hadoop 集群？

【问题讨论】：

【参考方案1】：

不知道你在做什么，以下是我的建议：

如果您想对数据运行即席查询，Hadoop 并不是最好的选择。您是否尝试过将数据加载到数据库中并对其运行查询？如果您想尝试使用 Hadoop 而无需设置集群的成本，请尝试使用 Amazon 的 Elastic MapReduce 产品http://aws.amazon.com/elasticmapreduce/ 我亲眼目睹了人们使用 shell 脚本来完成这些类型的任务。您是否尝试过使用 SSH 在机器上分发您的工作？ GNU Parallel 让这变得非常简单：http://www.gnu.org/software/parallel/

【讨论】：

【参考方案2】：

我认为这个问题有几个方面。第一个——你可以用 mysql/Oracle 等常用的 SQL 技术实现什么。如果你能用它们得到解决方案——我认为这将是更好的解决方案。

还应该指出，表格数据的 hadoop 处理将比传统的 DBMS 慢得多。所以我要谈第二个方面——你准备好用超过 4 台机器构建 hadoop 集群了吗？我认为 4-6 台机器是获得一些收益的最低要求。

第三个方面是 - 您是否准备好等待数据加载到数据库 - 这可能需要一些时间，但查询会很快。因此，如果您对每个数据集进行一些查询 - 它具有 hadoop 优势。

回到最初的问题 - 我认为您至少需要 100-200 GB 的数据，这样 Hadoop 处理才会有意义。我认为 2 TB 清楚地表明 hadoop 可能是一个不错的选择。

【讨论】：

以上是关于大约多少半结构化数据足以建立 Hadoop 集群？的主要内容，如果未能解决你的问题，请参考以下文章

Hadoop01

Hadoop

Hadoop2.7.5+Hbase1.4.0完全分布式集群搭建

数据管理技术HBase所处的的系统生态Hadoop

Hive-基本概念

Hadoop入门