大约多少半结构化数据足以建立 Hadoop 集群?

Posted

技术标签:

【中文标题】大约多少半结构化数据足以建立 Hadoop 集群?【英文标题】:What approximate amount of semistructured data is enough for setting up Hadoop cluster? 【发布时间】:2011-01-11 11:37:24 【问题描述】:

我知道,Hadoop 不仅是一般半结构化数据处理的替代品——我可以使用纯制表符分隔的数据和一堆 unix 工具(cut、grep、sed...)和手写来做很多事情蟒蛇脚本。但有时我会得到非常大量的数据,处理时间会长达 20-30 分钟。这对我来说是不可接受的,因为我想动态地试验数据集,运行一些半即席查询等等。

那么,就这种方法的成本结果而言,您认为多少数据足以设置 Hadoop 集群?

【问题讨论】:

【参考方案1】:

不知道你在做什么,以下是我的建议:

如果您想对数据运行即席查询,Hadoop 并不是最好的选择。您是否尝试过将数据加载到数据库中并对其运行查询? 如果您想尝试使用 Hadoop 而无需设置集群的成本,请尝试使用 Amazon 的 Elastic MapReduce 产品http://aws.amazon.com/elasticmapreduce/ 我亲眼目睹了人们使用 shell 脚本来完成这些类型的任务。您是否尝试过使用 SSH 在机器上分发您的工作? GNU Parallel 让这变得非常简单:http://www.gnu.org/software/parallel/

【讨论】:

【参考方案2】:

我认为这个问题有几个方面。第一个——你可以用 mysql/Oracle 等常用的 SQL 技术实现什么。如果你能用它们得到解决方案——我认为这将是更好的解决方案。

还应该指出,表格数据的 hadoop 处理将比传统的 DBMS 慢得多。所以我要谈第二个方面——你准备好用超过 4 台机器构建 hadoop 集群了吗?我认为 4-6 台机器是获得一些收益的最低要求。

第三个方面是 - 您是否准备好等待数据加载到数据库 - 这可能需要一些时间,但查询会很快。因此,如果您对每个数据集进行一些查询 - 它具有 hadoop 优势。

回到最初的问题 - 我认为您至少需要 100-200 GB 的数据,这样 Hadoop 处理才会有意义。我认为 2 TB 清楚地表明 hadoop 可能是一个不错的选择。

【讨论】:

以上是关于大约多少半结构化数据足以建立 Hadoop 集群?的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop01

Hadoop

Hadoop2.7.5+Hbase1.4.0完全分布式集群搭建

数据管理技术HBase所处的的系统生态Hadoop

Hive-基本概念

Hadoop入门