跟踪 VertexAI 管道使用的资源
Posted
技术标签:
【中文标题】跟踪 VertexAI 管道使用的资源【英文标题】:Tracking resources used by VertexAI pipeline 【发布时间】:2021-10-10 23:54:04 【问题描述】:是否可以跟踪 VertexAI 管道运行消耗的资源,类似于 Dataflow 的做法,它显示当前正在运行以执行管道的节点数的实时图表?
【问题讨论】:
【参考方案1】:Vertex AI Pipeline 为Visualizing and analyzing 管道结果提供了一项功能。
此功能可用于在 Pipeline 部署后检查资源利用率。
步骤:
Go to vertex AI pipeline->
Select a pipeline->
pipeline step->
view job(from Pipeline run analysis pane)
在“查看作业”窗格中,我们可以检查使用的资源,即机器类型、机器计数、管道步骤的 CPU 利用率图,我们也可以查看日志。
用途:
根据document,来自 Vertex AI 的指标(如 CPU 利用率、CPU 负载)处于Beta 启动阶段。但是,您可以通过参考此document 来检查 Cloud Monitoring 中的 CPU 利用率等指标,也可以找到以下快照以获取更多参考。
要更改图表的时间线,您必须在 metrics explorer 中选择 custom 选项并提供您想要查看的持续时间的日期和时间,如图所示在下面的屏幕截图中。
【讨论】:
是的,我也可以查看此信息。但是,CPU 利用率下的图表有时只会显示“没有可用数据”或类似的内容(当时间线包括作业运行的时间时),并且无法弄清楚如何更改图表中的时间线。跨度>以上是关于跟踪 VertexAI 管道使用的资源的主要内容,如果未能解决你的问题,请参考以下文章
尝试在 VertexAI 管道中使用 CustomPythonPackageTrainingJobRunOp 时出错