EMR 集群中的“LOST”节点
Posted
技术标签:
【中文标题】EMR 集群中的“LOST”节点【英文标题】:"LOST" node in EMR Cluster 【发布时间】:2015-09-03 20:57:41 【问题描述】:如何对长期运行的 EMR 集群中的丢失节点进行故障排除和恢复?
该节点几天前停止报告。主机似乎很好,HDFS 也很好。我只从 Hadoop 应用程序 UI 中注意到了这个问题。
【问题讨论】:
【参考方案1】:EMR 节点是短暂的,一旦它们被标记为 LOST,您就无法恢复它们。您可以通过在集群启动期间启用“终止保护”功能来避免这种情况。
关于查找 LOST 节点的原因,您可能可以检查集群的 YARN ResourceManager 日志和/或实例控制器日志,以了解有关根本原因的更多信息。
【讨论】:
那么当一个节点丢失时,该节点中的HDFS数据也会丢失吗? 是 - 如果您的 HDFS 复制因子仅为 1。否 - 如果它大于 1 并且您的是多节点集群。以上是关于EMR 集群中的“LOST”节点的主要内容,如果未能解决你的问题,请参考以下文章
AWS EMR Presto 集群突然终止错误:作业流中的所有从属服务器都因 Spot 而终止
有没有办法使用 boto3 中的集群名称检查 emr 集群状态?
AWS EMR kerberizing 集群 hadoop.security.AccessControlException