谷歌云数据流卡住重复错误“同步 pod 时出错...使用 CrashLoopBackOff 无法为“sdk”的“StartContainer”

Posted

技术标签:

【中文标题】谷歌云数据流卡住重复错误“同步 pod 时出错...使用 CrashLoopBackOff 无法为“sdk”的“StartContainer”【英文标题】:Google Cloud Data flow stuck with repeated error 'Error syncing pod...failed to "StartContainer" for "sdk" with CrashLoopBackOff' 【发布时间】:2019-05-13 02:14:07 【问题描述】:

SDK:适用于 Go 0.5.0 的 Apache Beam SDK

我们的 Golang 作业已经在 Google Cloud Data 流上运行了数周。我们没有对作业本身进行任何更新,SDK 版本似乎与以前相同。昨晚它失败了,我不确定为什么。它达到了 1 小时的时间限制,并且由于没有工人活动而取消了作业。

查看 Stackdriver 日志,我能看到的唯一突出之处是 Error syncing pod...failed to "StartContainer" for "sdk" with CrashLoopBackOff 的重复错误

似乎它以某种方式无法同步 pod(?),因此在重试之前等待了 5 分钟。

任何人都可以阐明可能导致此问题的原因以及我们如何寻找更多信息或诊断问题的原因吗?

注意:我检查了 Google Cloud 数据流的状态,服务似乎没有任何中断。

【问题讨论】:

遇到了与 Apache Beam Python SDK 类似的问题。使用直接运行器管道可以完美地工作,但是从数据流运行器开始时——同样的问题。 Dataflow UI 显示一切正常,但在日志中,您会看到 Pod 循环重启并出现相同的错误。 此问题可能与this 问题重复。 看到完全相同的东西。尝试将工作人员线束图像重新推送到我自己的 docker 帐户,但它也失败了。好像有什么东西坏了。这是我上一次做这项工作的一周前的工作。 【参考方案1】:

我们有类似的情况,发现无法启动工作程序(对我们来说是由于 slf4j 问题,但它可能是阻止工作程序以任何语言启动的任何东西)。

如果您查看 Stackdriver 日志(在 UI 中查看日志,然后单击链接转到 Stackdriver),您应该能够查看 worker_startup 日志。

【讨论】:

【参考方案2】:

我今天遇到了同样的问题,并按照here 的说明构建了我自己的图像,将其推送到公共存储库并与--worker_harness_container_image 选项一起使用,它对我有用。

【讨论】:

以上是关于谷歌云数据流卡住重复错误“同步 pod 时出错...使用 CrashLoopBackOff 无法为“sdk”的“StartContainer”的主要内容,如果未能解决你的问题,请参考以下文章

谷歌云功能 - Sendgrid 443 错误 [重复]

谷歌云消息错误服务不可用[重复]

如何阻止谷歌云 sql 损坏数据库表

类似运营商在谷歌云数据存储区中搜索列的替代方式[重复]

写入谷歌云 postgresql 数据库的连接网络错误

谷歌云/firebase 存储错误:无法在没有“client_email”的情况下签署数据。 ...名称:'SigningError'