MLFlow Registry 高可用性

Posted

技术标签:

【中文标题】MLFlow Registry 高可用性【英文标题】:MLFlow Registry high availability 【发布时间】:2020-08-12 07:44:18 【问题描述】:

我正在使用mlflow server (https://mlflow.org/docs/latest/model-registry.html) 运行 mlflow 注册表。服务器运行良好。如果服务器因任何原因崩溃,它会自动重新启动。但是在重启的时候服务器是不可用的。

是否可以在负载均衡器后面并行运行多个实例?这是安全的还是可能有任何不一致的地方?

【问题讨论】:

【参考方案1】:

是的,可以在负载均衡器后面运行多个 MLflow Tracker Service 实例。

由于跟踪服务器是无状态的,您可以将多个实例记录到复制的主数据库作为存储。如果主数据库发生故障,第二个热备用可以接管。

关于如何设置后端存储的复制实例的文档会因您选择使用哪一个而异,我们无法明确记录所有不同的场景及其配置。

我会查看后端数据库和负载均衡器的相应文档,了解如何将请求联合到 MLflow 跟踪服务器的多个实例、如何故障转移到热备用数据库或复制数据库,或者如何配置复制的热备用数据库实例。

简而言之:MLflow 跟踪服务器是无状态的。

【讨论】:

【参考方案2】:

以上建议主动-被动。服务器可以主动/主动运行(负载均衡器向任何正在运行的实例发送请求)吗?

在某些极端情况下,无状态系统可能会遇到多个写入者的问题。

【讨论】:

以上是关于MLFlow Registry 高可用性的主要内容,如果未能解决你的问题,请参考以下文章

eureka集群高可用配置

50-Docker-分布式仓库Harbor高可用

安装k8s高可用时候的报错解决

高并发高可用微服务架构选型Dubbo与Spring Cloud纯干货,必收藏!

Flink JobManager高可用性(HA)

Linux企业运维——Hadoop大数据平台(下)hdfs高可用Yarn高可用hbase高可用