在 sagemaker 中使用带有对象检测 API 的 tensorboard

Posted

技术标签:

【中文标题】在 sagemaker 中使用带有对象检测 API 的 tensorboard【英文标题】:Use tensorboard with object detection API in sagemaker 【发布时间】:2020-09-12 01:52:21 【问题描述】:

通过this,我在 docker 容器中使用 Tensorflow 对象检测 API 在 sagemaker 上成功创建了一个训练作业。现在我想使用 sagemaker 监控培训工作,但找不到任何解释如何做的事情。我不使用 sagemaker 笔记本。 我想我可以通过将日志保存到 S3 存储桶并指向本地 tensorboard 实例来做到这一点.. 但不知道如何告诉 tensorflow 对象检测 API 将日志保存在哪里(是否有任何命令行参数?)。 类似于this,但脚本generate_tensorboard_command.py 失败,因为我的训练作业没有sagemaker_submit_directory 参数..

事实上,当我开始训练作业时,我的 s3 上什么都没有创建,直到作业完成并上传所有内容。应该有一种方法告诉 tensorflow 在训练期间将日志 (s3) 保存在哪里,希望无需修改 API 源代码..

编辑

我终于可以让它与公认的解决方案一起工作(tensorflow 本身支持对 s3 的读/写),但是还有其他步骤要做:

    在训练作业配置中禁用网络隔离 向 Docker 映像提供凭据以写入 S3 存储桶

唯一的问题是 Tensorflow 不断地轮询文件系统(即在服务模式下寻找更新的模型),这会导致对 S3 的无用请求,您将不得不付费(以及控制台中的大量错误)。我为此开了一个新问题here。至少它有效。

编辑 2

我错了,TF 只是写日志,不是轮询,所以这是一种预期的行为,额外的成本是最小的。

【问题讨论】:

【参考方案1】:

查看您发布的示例,似乎传递给 TensorFlow 对象检测包的 model_dir 配置为 /opt/ml/model

# These are the paths to where SageMaker mounts interesting things in your container.
prefix = '/opt/ml/'
input_path = os.path.join(prefix, 'input/data')
output_path = os.path.join(prefix, 'output')
model_path = os.path.join(prefix, 'model')
param_path = os.path.join(prefix, 'input/config/hyperparameters.json')

在训练过程中,张量板日志会写入/opt/ml/model,然后作为训练后的最终模型工件上传到s3:https://docs.aws.amazon.com/sagemaker/latest/dg/your-algorithms-training-algo-envvariables.html

可能能够绕过 SageMaker 工件上传步骤,并在训练期间将 TensorFlow Object Detection API 的 model_dir 直接指向 s3 位置:

model_path = "s3://your-bucket/path/here

这意味着 SageMaker 作业中的 TensorFlow 库直接写入 S3,而不是其容器内的文件系统。假设底层 TensorFlow 对象检测代码可以直接写入 S3(您必须验证这一点),您应该能够实时查看 tensorboard 日志和检查点。

【讨论】:

以上是关于在 sagemaker 中使用带有对象检测 API 的 tensorboard的主要内容,如果未能解决你的问题,请参考以下文章

SageMaker实操分享

SageMaker实操分享

将经过训练的 AWS SageMaker MXNet 模型部署/转换到 iOS 设备

Sagemaker批处理转换作业-输入数据位置

TensorFlow 对象检测 API 损失急剧增加

服务模型时出现 Amazon Sagemaker ModelError