GKE 磁盘利用率监控/警报

Posted

技术标签:

【中文标题】GKE 磁盘利用率监控/警报【英文标题】:GKE Disk Utilization Monitoring/Alerting 【发布时间】:2019-02-18 18:44:16 【问题描述】:

我在 GKE 下遇到了一些磁盘压力问题(太多未清理的作业 pod),我想在下次磁盘空间不足时以某种方式收到警报。我查看了 Stackdriver Monitoring,但只看到磁盘读/写字节/操作。为了获得磁盘使用/利用率,我想我必须安装 stackdriver 代理,但我不确定这在 GKE 下是否可行。有没有办法监控 GKE 节点的磁盘利用率?

【问题讨论】:

【参考方案1】:

今天正在寻找这个。 推荐的答案与旧指标有关。 现在可以使用以下指标:metric.type="kubernetes.io/node/ephemeral_storage/allocatable_bytes" resource.type="k8s_node"

【讨论】:

【参考方案2】:

安装Stackdriver 代理时,默认情况下只有这两个磁盘指标可用:container/disk/bytes_totalcontainer/disk/bytes_used。事实上,不能像那样真正监控磁盘利用率。

宁可看到Creating Custom Metrics,还有Alerting Policy。

【讨论】:

以上是关于GKE 磁盘利用率监控/警报的主要内容,如果未能解决你的问题,请参考以下文章

利用shell监控cpu磁盘内存使用率

python写监控并发警报邮件

监控 GKE 上运行的 Cronjob

AWS 监控与报警 aws CloudWatch 自动恢复硬件故障实例 Auto Recover

检测磁盘使用率大于50发送警报日志

用 Bash 脚本监控 Linux 上的内存使用情况 | Linux 中国