为啥 Cloudwatch 停止记录 Sagemaker?
Posted
技术标签:
【中文标题】为啥 Cloudwatch 停止记录 Sagemaker?【英文标题】:Why did Cloudwatch stop logging Sagemaker?为什么 Cloudwatch 停止记录 Sagemaker? 【发布时间】:2018-10-01 02:09:04 【问题描述】:我有一个 Sagemaker 实例正在运行一段时间。中间我没有做任何更改,但现在我在 Cloudwatch 上看不到新日志了。旧日志仍然存在,但 2 天后没有新日志。
Sagemaker 实例仍在运行。它只是不再记录。由于代码没有改变,而且我没有任何与时间相关的东西,我很确定我达到了极限。但不知道是哪一个:
日志组只有一个日志流 单个日志流的大小为 175MB。我找到了CloudWatch Logs Limits 和CloudWatch Events Limits,但这对我没有帮助。
可能是什么问题?我该如何调查?
根据AWS docs,这不应该发生。一般的 AWS 支持没有帮助。
【问题讨论】:
我没有与 SageMaker 合作过,但我仍然可以给你一些建议来帮助调试它。我假设你也可以进入 EC2 机器。在开始 docs.aws.amazon.com/AmazonCloudWatch/latest/logs/… 之前请参阅此内容。首先,我会运行sudo systemctl status awslogsd
以确保其运行。接下来,我将确保"arn:aws:logs:*:*:*"
的策略仍然有效。接下来我会运行journalctl -u awslogsd
来查看是否在awslogsd
的日志中发现任何问题。接下来,如果没有任何结果,我将运行 journalctl -f
并监控日志中的任何内容
我不认为我可以使用 shell 登录到 Sagemaker.. 或者至少我不知道如何。
我相信还有一个 S3 日志选项?您还可以看看是否有一些政策问题?
不知道能不能看看有没有政策问题。关键是它运行了很长一段时间。这种变化让我感到惊讶,我认为我没有任何改变。
您对日志文件的实际外观有任何了解吗?它们是否旋转以及以什么频率旋转?如果第一行(默认情况下)与前一个文件中的相同,CloudWatch 日志代理将忽略轮换文件。您能看到日志文件的样子以及 CloudWatch 日志配置是什么吗?
【参考方案1】:
首先,听起来您并没有做错什么。日志应该只显示在 CloudWatch 中,您无需执行任何操作,没有大小或时间限制。如果它们完全启动,那么我们就知道权限设置正确——除非您在运行过程中修改了 IAM。如果日志在作业中停止,则实际作业由于某种原因停止输出到 stdout/stderr,或者这是服务日志处理的操作故障。联系 AWS 支持(在此处、在 AWS 论坛中或通过技术支持)是处理此问题的正确方法 - 向 AWS 中的某人提供帐户 ID 和工作名称将使他们能够查看到底发生了什么。
另外,很抱歉,这个问题很久没有得到答复。从这里的活动来看,似乎很多人可能遇到了这个问题。但我也猜测并希望问题是已解决的临时内部服务故障。如果有人仍然看到这个问题(2018 年 10 月之后),请发表评论,以便我们知道它仍然需要关注。或者更好的是提出一个新问题(从 SO 的角度来看并不理想,但这更有可能在 AWS 上引起人们的注意)。
感谢您使用 Amazon SageMaker,并感谢您的反馈!
-AWS 员工
【讨论】:
我询问了 AWS 支持,但他们没有帮助。他们给我发了几个链接,基本上说 AWS 负责日志记录。在提到这可能是 AWS 的错误后,他们只回复说他们不是技术支持(我没有预订)。后来,我想我发现了问题:我有很多相同的日志消息。不知何故,这似乎引起了问题(尽管我看不到我达到了任何限制)。为每条消息添加时间戳并减少日志记录为我解决了这个问题(现在 - 不确定这是否会再次发生) 它还能复制吗?很抱歉,您当时无法获得所需的帮助 - AWS 论坛有时是吸引技术人员关注的更好方式,但我们正在努力密切关注。【参考方案2】:我多次遇到这个问题。端点更新后可能没有创建新的 LogStream(这可以由您触发,或者 AWS 重新启动/更新底层实例)。您应该会看到在您的端点上运行/曾经运行的每个实例的 logStream。
不幸的是,对我来说减轻它的唯一方法是更新端点(例如,应用使用相同模型的相同 EndpointConfiguration),基本上触发实例及其日志流的重新创建
【讨论】:
以上是关于为啥 Cloudwatch 停止记录 Sagemaker?的主要内容,如果未能解决你的问题,请参考以下文章
为啥在 aws cloudwatch 上使用 sumologic?
Cloudwatch 将日志记录到 Elastic Search 服务配置