如何查看 AWS Batch 计算环境错误?

Posted

技术标签:

【中文标题】如何查看 AWS Batch 计算环境错误?【英文标题】:How do I view AWS Batch Compute Environment Errors? 【发布时间】:2019-02-17 11:24:35 【问题描述】:

我们设置批处理计算环境、作业队列和作业定义。计算环境的最小 CPU 数设置为 16,因此它应该始终至少运行一个 EC2 实例。这是一个MANAGED 环境。它没有开始,但一切仍然报告健康。我查看了troubleshooting page 并没有发现任何有用的信息。

我可以去哪里查看问题所在?这完全是一个黑盒子吗?如果我在配置中的某个地方出错(可能是某种 ARN 权限问题),我必须扫描每一行直到我碰巧看到错误?

【问题讨论】:

【参考方案1】:

答案是,看看 EC2 Auto Scaling 组。应该有一个以计算环境命名的自动缩放组。启动 EC2 实例的所有错误都应该在该 Auto Scaling 组中,该组由批处理计算环境创建和管理。

【讨论】:

因此,我们通过查找 ARN 中的潜在错误(使用推荐的默认错误)并注意到它提供了自动缩放权限来发现这一点。似乎故障排除页面应该提到在自动缩放组中查找错误;它本可以为我们(也许还有其他人)节省很多时间。 我最近在管理员删除了我们用于 AWS Batch 的 AMI 时发现了这一点。没有创建新实例。查看自动缩放组的错误,问题的根源很明显。

以上是关于如何查看 AWS Batch 计算环境错误?的主要内容,如果未能解决你的问题,请参考以下文章

为啥 AWS Batch 作业卡在 RUNNABLE 中?

如何在 AWS Batch 上使用 docker compose?

如何覆盖 AWS Batch 作业中的 docker 映像?

AWS ECS 中的批处理系统与 AWS Batch 有何不同?

[AWS][计算]AWS EC2 SSH连接错误排查

将 SSH 隧道反向到 AWS Batch 阵列作业