在实时 mongodb 机器上更新(或替换)整个数据库集合的最佳方法是啥?

Posted

技术标签:

【中文标题】在实时 mongodb 机器上更新(或替换)整个数据库集合的最佳方法是啥?【英文标题】:What is the best way to update (or replace) an entire database collection on a live mongodb machine?在实时 mongodb 机器上更新(或替换)整个数据库集合的最佳方法是什么? 【发布时间】:2019-10-26 13:15:13 【问题描述】:

我每月都会收到一个数据源,我正在对其进行解析并放入 MongoDB 数据库。每个月都会更新一些数据,并将一些新条目添加到现有集合中。源文件有几 GB 大。除了这些每月更新之外,数据根本不会改变。

最终,该数据库将上线,如果可能,我希望在这些每月更新期间避免出现任何停机时间。在不停机的情况下更新数据库的最佳方法是什么?


This question 基本上正是我所要求的,但不适用于 MongoDB 数据库。接受的答案是上传新版本的数据库,然后重命名新数据库以使用旧数据库。 但是,根据this question 的说法,要轻松重命名 MongoDB 数据库是不可能的。这使得该方法无法使用。

直观地说,我会尝试使用每个文档的唯一“gid”标识符(这是数据的属性,而不是 MongoDB 生成的“_id”)作为过滤器,迭代地“更新”整个数据库,但这可能是一种低效的做事方式。

我正在运行 MongoDB 版本 4.2.1

【问题讨论】:

【参考方案1】:

为什么您认为更新数据意味着停机?

听起来您不希望您的用户能够在负载中访问新数据。

如果是这种情况,策略可能是拥有 2 个数据库;现场和分期;与其将暂存数据库重命名为 live,不如重命名连接到它的客户端应用程序中的连接字符串。

还可以考虑使用mongodump和mongorestore复制数据库;尽管使用较大的数据库可能会更慢。

【讨论】:

以上是关于在实时 mongodb 机器上更新(或替换)整个数据库集合的最佳方法是啥?的主要内容,如果未能解决你的问题,请参考以下文章

为集合中的所有文档更新数组中的一个或两个字段 - mongodb

Spark创建或替换临时视图不多次更新现有表

MongoDB CRUD之U

Mongodb 关于update和findAndModify

笔记

使用spring数据mongodb更新/替换mongodb中深层嵌套的对象