如果成员节点出现故障，oracle coherence 分布式缓存中的复制如何处理？

Posted 2023-03-28

技术标签:

【中文标题】如果成员节点出现故障，oracle coherence 分布式缓存中的复制如何处理？【英文标题】：How is replication handled in oracle coherence distributed caching if a member node goes down? 【发布时间】：2021-05-14 08:49:21 【问题描述】：

我一直试图了解如果成员节点出现故障，oracle coherence 分布式缓存中的复制是如何处理的。

比如说，我的 coherence 集群有 3 个节点，A、B 和 C。据我了解，每个节点都有其备份。备份数据是否存储在磁盘上？如果一个节点 C 去了，一致性分布式缓存算法是否从节点 C 的备份中检索数据，并将其平均分配给其他两个节点？有人可以确认我的理解吗？

另外，据我了解，每个节点只处理一段数据。节点是否有可能获得对它不处理的数据的请求？在 oracle coherence 分布式缓存中如何处理这样的场景？

【问题讨论】：

要更好地了解分布式缓存在 Coherence 中的工作原理，请参阅：docs.oracle.com/en/middleware/standalone/coherence/14.1.1.0/… 【参考方案1】：

备份只是存储在不同的节点中。备份计数为 1（默认）时，2 个节点将拥有相同的数据，其中一个作为数据的主节点，另一个作为备份节点。

如果一个节点发生故障，它将变得无法访问，其他节点将意识到这一点。一旦他们意识到这一点，每个拥有故障节点“备份”数据的节点都将被提升为该数据的主节点，并且每个数据都将在其中一个幸存节点上具有新的备份.如果故障节点负责备份数据，则该数据的主节点将简单地选择一个新节点作为新备份。

每个节点都维护一种索引，使它们可以将任何存储的数据映射到负责它的节点。一个节点极有可能得到一个它不负责的请求。当它确实发生在分布式缓存中时，节点将向负责节点请求数据，并将其传递回请求者。额外网络跳数的最大值正好是一次。

要更好地了解 Coherence 中分布式缓存的工作原理，请参阅：Introduction to Coherence Caches。（图片来源于那里。）

【讨论】：

以上是关于如果成员节点出现故障，oracle coherence 分布式缓存中的复制如何处理？的主要内容，如果未能解决你的问题，请参考以下文章

MySQL MGR实现分析 - 成员管理与故障恢复实现

如果具有 hbase 表区域的节点出现故障会发生啥

Oracle RAC 脑裂

如果 2 个种子节点在 aws vpc 中出现故障，我该如何恢复我的集群

ORACLE 11G RAC 节点重启问题

MySQL 8.0 InnoDB Cluster 恢复故障成员