Elasticsearch 的 Liquibase 或 Flyway 数据库迁移替代方案
Posted
技术标签:
【中文标题】Elasticsearch 的 Liquibase 或 Flyway 数据库迁移替代方案【英文标题】:Liquibase or Flyway database migration alternative for Elasticsearch 【发布时间】:2014-07-21 13:50:17 【问题描述】:我对 ES 很陌生。我一直在尝试寻找一个数据库迁移工具,但我找不到。我想知道是否有人可以帮助我指出正确的方向。
我会在我的项目中使用 Elasticsearch 作为主数据存储。我想对我在项目中开发新模块时运行的所有映射和配置更改/数据导入/数据升级脚本进行版本控制。
过去我使用过 Flyway 或 Liquibase 等数据库版本控制工具。
是否有任何框架/脚本或方法可以与 ES 一起使用来实现类似的功能?
有没有人有任何使用脚本手动执行此操作并运行迁移脚本至少升级脚本的经验。
提前致谢!
【问题讨论】:
【参考方案1】:从这个角度/需求来看,ES有很大的局限性:
尽管具有动态映射,但 ES 不是无模式,而是模式密集型。如果此更改与现有文档冲突,则无法更改映射(实际上,如果任何文档具有新映射影响的非空字段,这将导致异常) ES 中的文档是不可变的:一旦你索引了一个,你只能在其中检索/删除。围绕这一点的语法糖是部分更新,这使得 ES 端的线程安全删除 + 索引(具有相同的 id)在您的问题中,这意味着什么?基本上,您不能拥有适用于 ES 的经典迁移工具。以下是可以让您更轻松地使用 ES 的原因:
使用严格映射("dynamic": "strict"
和/或index.mapper.dynamic: false
,看看mapping docs)。这将保护您的索引/类型免受
不小心被错误的类型动态映射
如果您错过数据映射关系中的某些错误,则会出现显式错误
您可以获取实际的 ES 映射并将其与您的数据模型进行比较。如果你的 PL 有足够高的 ES 库,这应该很容易
您可以利用 index aliases 进行迁移
所以,一点经验。对我来说,目前合理的流程是这样的:
在代码中描述为模型的所有数据结构。这个模型实际上也提供了 ORM 抽象。 索引/映射创建调用是简单模型的方法。 每个索引都有别名(即news
)指向实际索引(即news_index_revision_date_created
)。
每次部署代码时,你
-
尝试放置模型(类型)映射。如果它在没有错误的情况下完成,这意味着你要么
所有这些实际上意味着您可以使用现有的映射/数据,只需像往常一样使用数据。
-
如果 ES 提供关于新映射的异常,您
name_revision_date
将别名重定向到新索引
启动迁移代码,使bulk
请求快速重新索引
在此重新索引期间,您可以通过别名安全地正常索引新文档。缺点是在重新索引期间部分历史数据可用。
这是经过生产测试的解决方案。围绕这种方法的注意事项:
如果您的读取请求需要一致的历史数据,则不能这样做 您需要重新索引整个索引。如果每个索引有 1 种类型(可行的解决方案),那么它很好。但有时您需要多类型索引 数据网络往返。有时会很痛总结一下:
尝试在模型中使用良好的抽象,这总是有帮助的 尝试保持历史数据/字段过时。只需牢记这个想法来构建您的代码,这比听起来更容易 我强烈建议避免依赖利用 ES 实验工具的迁移工具。这些可以随时更改,就像river-*
tools 所做的那样。
【讨论】:
是否有工具可以自动执行此过程? 我不知道。 Tbh,现在我看不到在“自动”模式下无缝迁移 ES 中数据的方法。但是,如果您的数据不稳定 - 请考虑两件事: 1 - 好的 RDBMS 并不像看起来那么糟糕。 2 - 将 ES 中的索引分割成更小的索引(每月、每天、每个用户等),以便能够更快地迁移/切换别名以获取新/活动数据。 补充一点——顺便说一句,写这篇文章的时候没有reindex API。如果迁移不需要复杂的应用程序端转换 - ES 端的重新索引工作得非常快 在此处添加指向此有用答案的链接:***.com/a/43374464/1968909以上是关于Elasticsearch 的 Liquibase 或 Flyway 数据库迁移替代方案的主要内容,如果未能解决你的问题,请参考以下文章