如果成员节点出现故障,oracle coherence 分布式缓存中的复制如何处理?

Posted

技术标签:

【中文标题】如果成员节点出现故障,oracle coherence 分布式缓存中的复制如何处理?【英文标题】:How is replication handled in oracle coherence distributed caching if a member node goes down? 【发布时间】:2021-05-14 08:49:21 【问题描述】:

我一直试图了解如果成员节点出现故障,oracle coherence 分布式缓存中的复制是如何处理的。

    比如说,我的 coherence 集群有 3 个节点,A、B 和 C。据我了解,每个节点都有其备份。 备份数据是否存储在磁盘上?如果一个节点 C 去了,一致性分布式缓存算法是否从节点 C 的备份中检索数据,并将其平均分配给其他两个节点? 有人可以确认我的理解吗?

    另外,据我了解,每个节点只处理一段数据。节点是否有可能获得对它不处理的数据的请求?在 oracle coherence 分布式缓存中如何处理这样的场景?

【问题讨论】:

要更好地了解分布式缓存在 Coherence 中的工作原理,请参阅:docs.oracle.com/en/middleware/standalone/coherence/14.1.1.0/… 【参考方案1】:

    备份只是存储在不同的节点中。备份计数为 1(默认)时,2 个节点将拥有相同的数据,其中一个作为数据的主节点,另一个作为备份节点。

    如果一个节点发生故障,它将变得无法访问,其他节点将意识到这一点。一旦他们意识到这一点,每个拥有故障节点“备份”数据的节点都将被提升为该数据的主节点,并且每个数据都将在其中一个幸存节点上具有新的备份.如果故障节点负责备份数据,则该数据的主节点将简单地选择一个新节点作为新备份。

    每个节点都维护一种索引,使它们可以将任何存储的数据映射到负责它的节点。一个节点极有可能得到一个它不负责的请求。当它确实发生在分布式缓存中时,节点将向负责节点请求数据,并将其传递回请求者。额外网络跳数的最大值正好是一次。

要更好地了解 Coherence 中分布式缓存的工作原理,请参阅:Introduction to Coherence Caches。 (图片来源于那里。)

【讨论】:

以上是关于如果成员节点出现故障,oracle coherence 分布式缓存中的复制如何处理?的主要内容,如果未能解决你的问题,请参考以下文章

MySQL MGR实现分析 - 成员管理与故障恢复实现

如果具有 hbase 表区域的节点出现故障会发生啥

Oracle RAC 脑裂

如果 2 个种子节点在 aws vpc 中出现故障,我该如何恢复我的集群

ORACLE 11G RAC 节点重启问题

MySQL 8.0 InnoDB Cluster 恢复故障成员