谷歌云平台默认队列暂停本身

Posted

技术标签:

【中文标题】谷歌云平台默认队列暂停本身【英文标题】:Google Cloud Platform Default Queue Pausing Itself 【发布时间】:2021-06-15 23:08:03 【问题描述】:

在过去 3 天中,我们的 GCP“默认”队列自行暂停了 5 次(我们没有手动暂停它)。这在过去从未发生过,我们已经使用 GAE / GCP 任务队列 4 年了。手动恢复队列可以解决问题,但它非常不方便,因为我们整天都在使用它来处理对业务至关重要的中小型任务。然而,我们每天最多只能创建大约 200-300 个任务。

有什么变化或损坏吗?

巧合的是,几天前在部署我们的应用引擎标准应用时出现了一个奇怪的错误,该错误在部署的最后失败,指的是队列问题。我在错误消息中找到了一个链接,该链接指向启用 API 的页面。我必须启用该 API(它指的是任务或队列 api),它解决了部署问题。我很确定我们的应用没有使用该 API(我们根本不管理应用中的队列)——我们只将任务添加到队列中。

我不确定这两个事件是否相关,但似乎非常巧合,可能是直接原因。

我为默认队列打开了日志记录,在使用“默认”严重级别暂停时,没有特定于暂停事件的消息出现。有消息显示任务到达队列。

我用谷歌搜索了这个问题,找不到。

【问题讨论】:

【参考方案1】:

每次我将新版本部署到应用引擎时,我都能确定默认队列会暂停。我能够通过在 queue.xml 文件中定义默认队列来纠正这个问题,该文件以前只有备份队列。这是我的新 queue.xml 文件...

<queue-entries>    
  <queue>
    <name>default</name>
    <rate>5/s</rate>
    <max-concurrent-requests>100</max-concurrent-requests>
    <retry-parameters>
      <!-- only 20 retry attempts (default is unlimited) -->
      <task-retry-limit>20</task-retry-limit>
    </retry-parameters>    
  </queue>

  <queue>
    <name>backup-queue</name>
    <rate>15/s</rate>
    <!-- recommended to be rate/5 -->
    <bucket-size>3</bucket-size>
    <max-concurrent-requests>10</max-concurrent-requests>
    <target>ah-builtin-python-bundle</target>
    <retry-parameters>
      <!-- only 2 retry attempts -->
      <task-retry-limit>2</task-retry-limit>
    </retry-parameters>
  </queue>
</queue-entries>

【讨论】:

以上是关于谷歌云平台默认队列暂停本身的主要内容,如果未能解决你的问题,请参考以下文章

谷歌云点击部署hadoop

谷歌云平台到 S3/Redshift

故障周第二弹:谷歌云平台全局负载均衡服务发生中断

如何从谷歌云平台下载 WordPress 文件

将节点js连接到postgresql(谷歌云平台)

谷歌云平台数据集无法在 VertexAI 中显示图像