带有 SysV 共享内存的异步 MPI

Posted 2023-03-27

技术标签:

【中文标题】带有 SysV 共享内存的异步 MPI【英文标题】：Asynchronous MPI with SysV shared memory 【发布时间】：2012-05-24 13:22:34 【问题描述】：

我们有一个大型 Fortran/MPI 代码库，它利用节点上的 system-V 共享内存段。我们在具有 32 个处理器的胖节点上运行，但只有 2 或 4 个 NIC，每个 CPU 的内存相对较少；所以我们的想法是我们建立一个共享内存段，每个 CPU 在其上执行其计算（在其 SMP 数组的块中）。然后 MPI 用于处理节点间通信，但仅在 SMP 组中的主节点上。该过程是双缓冲的，对我们来说效果很好。

当我们决定切换到异步通信以隐藏一些延迟时，问题就出现了。由于节点上只有几个 CPU 通过 MPI 进行通信，但所有 CPU 都看到接收到的数组（通过共享内存），所以 CPU 不知道通信 CPU 何时完成，除非我们制定某种屏障，并且那为什么要异步通信呢？

理想的假设解决方案是将请求标签放在 SMP 段中，并在需要知道的 CPU 上运行 mpi_request_get_status。当然，请求标签只注册在通信CPU上，所以不起作用！另一个建议的可能性是在通信线程上分支一个线程并使用它在循环中运行 mpi_request_get_status，在共享内存段中使用标志参数，以便所有其他图像都可以看到。不幸的是，这也不是一个选择，因为我们被限制不使用线程库。

我们提出的唯一可行的选择似乎可行，但感觉就像一个肮脏的黑客。我们在接收缓冲区的上限地址中放置了一个不可能的值，这样一旦 mpi_irecv 完成，该值就会改变，因此每个 CPU 都知道何时可以安全地使用缓冲区。那样可以么？似乎只有当 MPI 实现可以保证连续传输数据时，它才能可靠地工作。这听起来几乎令人信服，因为我们已经用 Fortran 编写了这个东西，所以我们的数组是连续的；我想访问也将是。

有什么想法吗？

谢谢，乔利

这是我正在做的那种事情的伪代码模板。家里没拿到代码作为参考，所以希望我没有忘记任何重要的东西，但我会确保我回到办公室时......

pseudo(array_arg1(:,:), array_arg2(:,:)...)

  integer,      parameter : num_buffers=2
  Complex64bit, smp       : buffer(:,:,num_buffers)
  integer                 : prev_node, next_node
  integer                 : send_tag(num_buffers), recv_tag(num_buffers)
  integer                 : current, next
  integer                 : num_nodes

  boolean                 : do_comms
  boolean,      smp       : safe(num_buffers)
  boolean,      smp       : calc_complete(num_cores_on_node,num_buffers)

  allocate_arrays(...)

  work_out_neighbours(prev_node,next_node)

  am_i_a_slave(do_comms)

  setup_ipc(buffer,...)

  setup_ipc(safe,...)

  setup_ipc(calc_complete,...)

  current = 1
  next = mod(current,num_buffers)+1

  safe=true

  calc_complete=false

  work_out_num_nodes_in_ring(num_nodes)

  do i=1,num_nodes

    if(do_comms)
      check_all_tags_and_set_safe_flags(send_tag, recv_tag, safe) # just in case anything else has finished.
      check_tags_and_wait_if_need_be(current, send_tag, recv_tag)
      safe(current)=true
    else
      wait_until_true(safe(current))
    end if

    calc_complete(my_rank,current)=false
    calc_complete(my_rank,current)=calculate_stuff(array_arg1,array_arg2..., buffer(current), bounds_on_process)
    if(not calc_complete(my_rank,current)) error("fail!")

    if(do_comms)
      check_all_tags_and_set_safe(send_tag, recv_tag, safe)

      check_tags_and_wait_if_need_be(next, send_tag, recv_tag)
      recv(prev_node, buffer(next), recv_tag(next))
      safe(next)=false

      wait_until_true(all(calc_complete(:,current)))
      check_tags_and_wait_if_need_be(current, send_tag, recv_tag)
      send(next_node, buffer(current), send_tag(current))
      safe(current)=false
    end if

    work_out_new_bounds()

    current=next
    next=mod(next,num_buffers)+1

  end do
end pseudo

因此，理想情况下，我希望在通信进程的另一个线程中循环运行“check_all_tags_and_set_safe_flags”，或者更好：取消“安全标志”并使发送/接收的句柄在奴隶，那么我可以在计算奴隶之前运行：“check_tags_and_wait_if_need_be(current, send_tag, recv_tag)” (mpi_wait) 而不是“wait_until_true(safe(current))”。

【问题讨论】：

您对 MPI 传输消息方式的假设在一般情况下是不正确的。大消息通常被分解成块，然后独立发送，并且可能以任意顺序到达（例如，开放 MPI + 多个网络互连）。它仅取决于 MPI 实现，而不取决于编写程序所用的语言。由于您的问题听起来是混合 MPI/OpenMP 解决方案的理想选择，因此限制您不使用线程库是很糟糕的。 【参考方案1】：

"...除非我们制定某种障碍，否则为什么要进行异步通信？"

那句话有点混乱。异步通信的目的是重叠通信和计算；希望您可以在通信进行时完成一些真正的工作。但这意味着您现在有两个任务发生，最终必须同步，因此必须在第一个通信阶段结束时阻止这些任务，然后它们进入第二个计算阶段（或其他）。

在这种情况下如何做才能很好地实现事情的问题（看起来你现在所拥有的东西是可行的，但你正确地担心结果的脆弱性）取决于你是如何进行实现的。你使用线程这个词，但是（a）你使用的是 sysv 共享内存段，如果你有线程，你就不需要这样做，并且（b）你被限制不使用线程库，所以大概你实际上意味着你在 MPI_Init() 之后 fork() 进程？

我同意 Hristo 的观点，您最好的选择几乎肯定是使用 OpenMP 进行节点上的计算分布，并且可能会大大简化您的代码。了解更多关于不使用线程库的约束会有所帮助。

另一种方法仍然可以避免您必须“滚动您自己的”除 MPI 之外使用的基于进程的通信层，该方法是让节点上的所有进程都是 MPI 进程，但是创建一些通信器 - 一个用于全局通信，每个节点一个“本地”通信器。每个节点只有几个进程将成为实际进行节点外通信的通信器的一部分，而其他进程则在共享内存段上工作。然后，您可以使用基于 MPI 的同步方法（等待或屏障）进行节点同步。即将推出的 MPI3 实际上将明确支持以这种方式使用本地共享内存段。

最后，如果您绝对受约束并决心通过本质上是您自己的仅限本地节点的 IPC 实现来继续做事 --- 因为您已经在使用 SysV 共享内存段，您不妨使用@987654321 @ 进行同步。当数据准备好进行计算时，您已经在使用自己的（有些微妙的）类似信号量的机制来“标记”；在这里，您可以使用更强大的、已编写的信号量来让非 MPI 进程知道数据何时准备好进行计算（以及让 MPI 进程知道其他进程何时完成计算的类似机制）。

【讨论】：

感谢您的澄清；我很感激我们需要等待，即使是异步通信。我担心但表达不佳的是，一个进程可能已准备好切换到安全缓冲区，但正在等待通信进程到达轮询请求标签并通知从属进程安全状态的点缓冲区；一种二阶等待，而不仅仅是等待通讯结束。我想我应该澄清线程情况；我们目前没有使用任何线程库或进行进程分叉，只是在节点上使用带有 SysV 的纯 MPI。我提到它只是因为我认为线程是要走的路，尽管由于以下原因我不能这样做。 OpenMP 应该是理想的，但不幸的是，为了有效地使用它，我们需要重新编写大部分代码，而其他开发人员不愿意偶尔使用它，只是为了产生一个 MPI-request-tag 轮询线程，或者（更明智地）甚至使用 OpenMP 来处理共享内存/直接循环。给出的原因是 OpenMP 分支线程显然很慢，所以要么有人在层次结构中使用高于 MPI 的 OpenMP 重写底层通信架构，要么我们不愿意支付延迟成本。 Posix 线程是另一种选择，但我们（不幸的是）必须支持 Microsoft Windows，其中 Unix 子系统是可选的，并且可能会随着 Windows 8 消失。总的来说，我认为我无法赢得线程库与开发商争论。实际上，我想要的只是通信进程上的另一个线程来轮询请求标签，或者以一种允许我在这些进程上轮询它们的方式将这些请求标签传递给其他进程的方法.我想我可能高估了这个问题，也许通过在循环中的几个点连续轮询请求标签，并通过任何方式通知从属进程，可能没有什么问题。似乎可能有一个更优雅的解决方案。你提到了进程分叉，但我的印象是 MPI 强烈反对它？评论适用于小cmets；问题的更新进入答案的编辑。我同意这有时很尴尬。请注意，我不是推荐分叉，我是在问你是否正在这样做。恐怕我现在仍然不明白您的代码实际上在做什么，也许用一些伪代码编辑您的问题会有所帮助。

以上是关于带有 SysV 共享内存的异步 MPI的主要内容，如果未能解决你的问题，请参考以下文章