EMR 集群中的“LOST”节点

Posted

技术标签:

【中文标题】EMR 集群中的“LOST”节点【英文标题】:"LOST" node in EMR Cluster 【发布时间】:2015-09-03 20:57:41 【问题描述】:

如何对长期运行的 EMR 集群中的丢失节点进行故障排除和恢复?

该节点几天前停止报告。主机似乎很好,HDFS 也很好。我只从 Hadoop 应用程序 UI 中注意到了这个问题。

【问题讨论】:

【参考方案1】:

EMR 节点是短暂的,一旦它们被标记为 LOST,您就无法恢复它们。您可以通过在集群启动期间启用“终止保护”功能来避免这种情况。

关于查找 LOST 节点的原因,您可能可以检查集群的 YARN ResourceManager 日志和/或实例控制器日志,以了解有关根本原因的更多信息。

【讨论】:

那么当一个节点丢失时,该节点中的HDFS数据也会丢失吗? 是 - 如果您的 HDFS 复制因子仅为 1。否 - 如果它大于 1 并且您的是多节点集群。

以上是关于EMR 集群中的“LOST”节点的主要内容,如果未能解决你的问题,请参考以下文章

AWS EMR Presto 集群突然终止错误:作业流中的所有从属服务器都因 Spot 而终止

EMR Hadoop 并未利用所有集群节点

有没有办法使用 boto3 中的集群名称检查 emr 集群状态?

阿里云EMR集群初始化后的开发准备工作

AWS EMR kerberizing 集群 hadoop.security.AccessControlException

无法访问 EMR 集群 jupyter notebook 中的 pyspark