消息传递系统中的屏障是如何实现的?
Posted
技术标签:
【中文标题】消息传递系统中的屏障是如何实现的?【英文标题】:How is barrier implemented in message passing systems? 【发布时间】:2014-03-04 18:52:45 【问题描述】:我的理解是,一个主进程向所有其他进程发送消息。作为回报,所有其他进程都会向主进程发送消息。这足以成为工作障碍吗?如果没有,那还需要什么?
【问题讨论】:
“这足以构成工作障碍吗?” ——有用吗?你有没有尝试过?您面临哪些问题? “如果不是,那还需要什么?” -- 你告诉我们。 对于收到的每个完成消息(客户端发送,然后阻塞),主节点运行类似:if(++atomic_variable >= n) release();
【参考方案1】:
让我们看看OpenMPI's implementation of barrier。虽然其他实现可能略有不同,但一般的通信模式应该是相同的。
首先要注意的是,MPI 的屏障没有设置成本:到达MPI_Barrier
调用的进程将阻塞,直到该组的所有其他成员也调用了MPI_Barrier
。请注意,MPI 不需要他们到达相同的调用,只要调用MPI_Barrier
。因此,由于组中的节点总数对于每个进程都是已知的,因此不需要为初始化调用分配额外的状态。
现在,让我们看一些代码:
/*
* Copyright (c) 2004-2005 The Trustees of Indiana University and Indiana
* University Research and Technology
* Corporation. All rights reserved.
* Copyright (c) 2004-2005 The University of Tennessee and The University
* of Tennessee Research Foundation. All rights
* reserved.
* Copyright (c) 2004-2005 High Performance Computing Center Stuttgart,
* University of Stuttgart. All rights reserved.
* Copyright (c) 2004-2005 The Regents of the University of California.
* All rights reserved.
* Copyright (c) 2012 Oak Ridge National Labs. All rights reserved.
* [...]
*/
[...]
/*
* barrier_intra_lin
*
* Function: - barrier using O(N) algorithm
* Accepts: - same as MPI_Barrier()
* Returns: - MPI_SUCCESS or error code
*/
int
mca_coll_basic_barrier_intra_lin(struct ompi_communicator_t *comm,
mca_coll_base_module_t *module)
int i;
int err;
int size = ompi_comm_size(comm);
int rank = ompi_comm_rank(comm);
首先所有节点(除了等级为 0 的根节点)向根节点发送到达屏障的通知:
/* All non-root send & receive zero-length message. */
if (rank > 0)
err =
MCA_PML_CALL(send
(NULL, 0, MPI_BYTE, 0, MCA_COLL_BASE_TAG_BARRIER,
MCA_PML_BASE_SEND_STANDARD, comm));
if (MPI_SUCCESS != err)
return err;
之后他们阻止等待来自根的通知:
err =
MCA_PML_CALL(recv
(NULL, 0, MPI_BYTE, 0, MCA_COLL_BASE_TAG_BARRIER,
comm, MPI_STATUS_IGNORE));
if (MPI_SUCCESS != err)
return err;
根节点实现通信的另一端。首先它阻塞直到它收到n-1
通知(来自组中每个节点的通知,除了他自己,因为他已经在屏障调用中):
else
for (i = 1; i < size; ++i)
err = MCA_PML_CALL(recv(NULL, 0, MPI_BYTE, MPI_ANY_SOURCE,
MCA_COLL_BASE_TAG_BARRIER,
comm, MPI_STATUS_IGNORE));
if (MPI_SUCCESS != err)
return err;
一旦所有通知到达,它就会发出每个节点正在等待的消息,表示每个人都已到达屏障,之后它会自行离开屏障调用:
for (i = 1; i < size; ++i)
err =
MCA_PML_CALL(send
(NULL, 0, MPI_BYTE, i,
MCA_COLL_BASE_TAG_BARRIER,
MCA_PML_BASE_SEND_STANDARD, comm));
if (MPI_SUCCESS != err)
return err;
/* All done */
return MPI_SUCCESS;
所以通信模式首先是从所有节点到根的n:1
,然后从根返回到所有节点的1:n
。为了避免根节点的请求超载,OpenMPI 允许使用基于树的通信模式,但基本思想是相同的:所有节点在进入屏障时通知根节点,而根节点聚合结果并在到达时通知每个人准备好继续。
【讨论】:
【参考方案2】:不,这还不够。一旦主进程向所有其他进程发送消息通知它们已到达屏障,并且所有其他进程都响应说它们也已到达屏障,则只有主进程知道所有进程都已到达屏障。在这种情况下,需要从 master 向其他进程发送另一条消息。
我没有声明 MPI 屏障在任何库中的实际实现,特别是我并不是建议在实践中使用概述的消息序列,只是在理论上存在缺陷。
【讨论】:
看到master先接收再发送。我在第一次阅读时也忽略了条件(排名> 0)。以上是关于消息传递系统中的屏障是如何实现的?的主要内容,如果未能解决你的问题,请参考以下文章