节点太多导致Hadoop性能问题?

Posted

技术标签:

【中文标题】节点太多导致Hadoop性能问题?【英文标题】:Hadoop performance problems because of too many nodes? 【发布时间】:2018-04-24 14:58:54 【问题描述】:

我听说如果你运行广泛的查询,hadoop 可能会出现性能问题,因为可能涉及到太多的节点?

任何人都可以验证或伪造此声明吗?

谢谢! BR

【问题讨论】:

【参考方案1】:

如果添加文件太多,namenode 会出现性能问题,因为它必须将所有文件位置存储在内存中。您可以通过定期创建更大的档案来优化这一点。例如,每天的数据库转储变成每月/每年的压缩档案,仍然是可处理的格式

HDFS 数据节点只是一个文件系统并且可以线性扩展。总体而言,添加更多 NodeManager 节点不会产生负面影响,据报道 YARN 最多可运行 1000 个节点,如果您确实需要更多节点,我建议您使用独立集群。

与任何分布式系统一样,您需要优化网络交换和系统监控,但这些都是不特定于 Hadoop 的操作性能问题

【讨论】:

以上是关于节点太多导致Hadoop性能问题?的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop作业性能指标及參数调优实例 Hadoop作业性能调优7个建议

Elastischearch7.6 版本 update 后 refresh 慢,性能问题导致稳定性问题

Hadoop数据节点:为啥数据块的阈值有一个神奇的“数字”?

如何设计 Hbase 架构以实现高性能

spark与hadoop相比,存在哪些缺陷

如何查看hadoop mapreduce 性能