[译][并行计算] 1. 并行计算简介

Posted 2021-01-02 魔豆Magicbean

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[译][并行计算] 1. 并行计算简介相关的知识，希望对你有一定的参考价值。

并行计算简介

（本人刚刚完成这篇长文章的翻译，尚未认真校对。若里面有翻译错误和打字错误敬请谅解，并请参考原贴）

1 摘要

最近项目需要实现程序的并行化，刚好借着翻译这篇帖子的机会，了解和熟悉并行计算的基本概念和程序设计。帖子的原文见这里。

这篇帖子旨在为并行计算这一广泛而宏大的话题提供一个非常快速的概述，作为随后教程的先导。因此，它只涵盖了并行计算的基础知识，实用于刚刚开始熟悉该主题的初学者。我们并不会深入讨论并行计算，因为这将花费大量的时间。本教程从对并行计算是什么以及如何使用开始，讨论与其相关的概念和术语，然后解析并行内存架构(parallel memory architecture)以及编程模型(programming models)等。这些主题之后是一系列关于设计和运行并行计算程序的复杂问题的实践讨论。最后，本教程给出了几个并行化简单串行程序的示例。

2 概述

2.1 什么是并行计算？

串行计算： 传统的软件通常被设计成为串行计算模式，具有如下特点：

一个问题被分解成为一系列离散的指令；
这些指令被顺次执行；
所有指令均在一个处理器上被执行；
在任何时刻，最多只有一个指令能够被执行。

例如，

并行计算： 简单来讲，并行计算就是同时使用多个计算资源来解决一个计算问题：

一个问题被分解成为一系列可以并发执行的离散部分；
每个部分可以进一步被分解成为一系列离散指令；
来自每个部分的指令可以在不同的处理器上被同时执行；
需要一个总体的控制/协作机制来负责对不同部分的执行情况进行调度。

例如，

这里的 计算问题 需要具有如下特点：

能够被分解成为并发执行离散片段；
不同的离散片段能够被在任意时刻执行；
采用多个计算资源的花费时间要小于采用单个计算资源所花费的时间。

这里的 计算资源 通常包括：

具有多处理器/多核(multiple processors/cores)的计算机；
任意数量的被连接在一起的计算机。

并行计算机：
通常来讲，从硬件的角度来讲，当前所有的单机都可以被认为是并行的：

多功能单元（L1缓存，L2缓存，分支，预取，解码，浮点数，图形处理器，整数等）
多执行单元/内核
多硬件线程

IBM BG/Q Compute Chip with 18 cores (PU) and 16 L2 Cache units (L2)

通过网络连接起来的多个单机也可以形成更大的并行计算机集群:
这里写图片描述

例如，下面的图解就显示了一个典型的LLNL并行计算机集群：

每个计算结点就是一个多处理器的并行计算机；
多个计算结点用无限宽带网络连接起来；
某些特殊的结点（通常也是多处理器单机）被用来执行特定的任务。

2.2 为什么要并行计算？

真实世界就是高度并行的：

自然界中的万事万物都在并发的，按照其内在时间序列运行着；
和串行计算相比，并行计算更适用于对现实世界中的复杂现象进行建模，模拟和理解；
例如，可以想象对这些进行顺序建模：

主要理由：

节约时间和成本：1）理论上来讲，在一个任务上投入更多的资源有利于缩短其完成时间，从而降低成本；2）并行计算机可以由大量廉价的单机构成，从而节约成本。
解决更大规模更复杂的问题：1）很多问题的规模和复杂度使得其难以在一个单机上面完成；2）一个有趣的例子：(Grand Challenge Problems)。3）网页搜索引擎/数据库每秒处理百万级别的吞吐量。
提供并发性：1）单个计算资源某个时间段只能做一件事情，而多计算资源则可以同时做多件事情；2）协同网络可以使得来自世界不同地区的人同时虚拟地沟通。
利用非局部的资源：1）可以利用更广范围中的网络资源；2）SETI@home的例子；以及3）Folding@home的例子。
更好地利用并行硬件：1）现代计算机甚至笔记本电脑在架构上都属于多处理器/多核的；2）并行软件已经适用于多核的并行硬件条件，例如线程等；3）在大多数情况下，运行在现代计算机上的串行程序实际上浪费了大量的计算资源。

并行计算的未来：

在过去的二十多年中，快速发展的网络，分布式系统以及多处理器计算机架构（甚至在桌面机级别上）表明并行化才是计算的未来；
在同一时期，超级计算机的性能已经有了至少50万倍的增加，而且目前还没有达到极限的迹象；
目前的峰值计算速度已经达到了 $10^{18}$ /秒。

2.3 谁都在使用并行计算？

科学界和工程界：

从历史上来讲，并行计算就被认为是“计算的高端”，许多科学和工程领域的研究团队在对很多领域的问题建模上都采用了并行计算这一模式，包括：大气与地球环境、应用物理、生物科学、遗传学、化学、分子科学、机械工程、电气工程、计算机科学、数学、国防和武器研发等。
这里写图片描述

工业界和商业界：

如今，商业应用为更快速计算机的研发提供了更强劲的动力。这些商业应用程序需要以更复杂的方式处理大量数据，例如：大数据、数据库、数据挖掘、石油勘探、网页搜索引擎、基于web的商业服务、医学成像和诊断、跨国公司管理、高级图形学技术以及虚拟现实、网络视频和多媒体技术、协同工作环境等。
这里写图片描述

全球应用：
并行计算目前在实际上被广泛采用于大量应用中。
这里写图片描述

3 概念和术语

3.1 冯诺依曼体系结构

以匈牙利数学家约翰·冯诺依曼命名的这一计算机体系结构，出现在他1945年发表的一篇论文中。这也通常被称为“存储程序计算机”——程序指令和数据都被保存在存储器中，这与早期通过“硬接线”编程的计算机不同。从此以后，所有的计算机走遵从这一基本架构：
这里写图片描述
- 四个组成部分：1）内存；2）控制器；3）处理器；4）输入输出。
- 读写操作：支持随机存储的内存用来同时保存程序指令和数据：1）程序指令用来指导计算机操作；2）数据是程序用来操作的对象。
- 控制器：从内存中读取指令或者数据，对这些指令进行解码并且顺序执行这些指令。
- 处理器：提供基本的算术和逻辑操作。
- 输入输出设备：是人机交互的接口。

那么冯诺依曼体系结构和并行计算有什么关系呢？答案是：并行计算机仍然遵从这一基本架构，只是处理单元多于一个而已，其它的基本架构完全保持不变。

3.2 弗林的经典分类

有不同的方法对并行计算机进行分类（具体例子可参见并行计算分类）。

一种被广泛采用的分类被称为弗林经典分类，诞生于1966年。弗林分类法从指令流和数据流两个维度区分多处理器计算机体系结构。每个维度有且仅有两个状态：单个或者多个。

下面个矩阵定义了弗林分类的四个可能状态：
这里写图片描述

单指令单数据(SISD)： SISD是标准意义上的串行机，具有如下特点：1）单指令：在每一个时钟周期内，CPU只能执行一个指令流；2）单数据：在每一个时钟周期内，输入设备只能输入一个数据流；3）执行结果是确定的。这是最古老的一种计算机类型。
这里写图片描述

单指令多数据(SIMD)： SIMD属于一种类型的并行计算机，具有如下特点：1）单指令：所有处理单元在任何一个时钟周期内都执行同一条指令；2）多数据：每个处理单元可以处理不同的数据元素；3）非常适合于处理高度有序的任务，例如图形/图像处理；4）同步（锁步）及确定性执行；5）两个主要类型：处理器阵列和矢量管道。
这里写图片描述

这里写图片描述

**多指令单数据(MISD)：**MISD属于一种类型的并行计算机，具有如下特点：1）多指令：不同的处理单元可以独立地执行不同的指令流；2）单数据：不同的处理单元接收的是同一单数据流。这种架构理论上是有的，但是工业实践中这种机型非常少。
这里写图片描述

多指令多数据(MIMD)： MIMD属于最常见的一种类型的并行计算机，具有如下特点：1）多指令：不同的处理器可以在同一时刻处理不同的指令流；2）多数据：不同的处理器可以在同一时刻处理不同的数据；3）执行可以是同步的，也可以是异步的，可以是确定性的，也可以是不确定性的。这是目前主流的计算机架构类型，目前的超级计算机、并行计算机集群系统，网格，多处理器计算机，多核计算机等都属于这种类型。值得注意的是，许多MIMD类型的架构中实际也可能包括SIMD的子架构。
这里写图片描述

3.3 一些常见的并行计算术语

和其它一些领域一样，并行计算也有自己的“术语”。下面列出了与并行计算相关联的一些常用术语，其中大部分术语我们在后面还会进行更详细的讨论。

结点(Node)： 也就是一个独立的“计算机单元”。通常由多个CPU处理器/处理内核，内存，网络接口等组成。结点联网在一起以构成超级计算机。
中央处理器/套接字/处理器/核(CPU / Socket / Processor / Core)： 这些术语也取决于我们讨论的语境。在过去，中央处理器通常是计算机中的一个单个执行单元。之后多处理器被植入到一个结点中。接着处理器又被设计成为多核，每个核成为一个独立的处理单元。具有多核的中央处理器有时候又被称为“套接字”——实际上也没有统一标准。所以目前来讲，我们称一个结点上具有多个中央处理器，每个中央处理器上又具有多个内核。
任务(Task)： 任务通常是指一个逻辑上离散的计算工作部分。一个任务通常是一段程序或者一段类似于程序的指令集合，可以由一个处理器进行处理。一个并行程序通常由多个任务构成，并且可以运行在多个处理器上。
流水线(Pipelining)： 可以将任务分解成为不同的步骤，并且由不同的处理单元完成，里面有输入流通过。这非常类似于一个装配线，属于一种类型的并行计算。
共享内存(Shared Memory)： 从严格的硬件角度来讲，共享内存描述了一种计算机架构，其中所有的处理器都可以对共同的物理内存进行直接存取（通常是通过总线）。从编程的角度来讲，共享内存描述了一种模型，其中所有的并行任务都具有同一内存形态，并且都可以直接对同一内存区域进行直接定位和存取，而无论该物理内存实际上在哪里（也许在千里之外的另外一个计算机上？）。
对称多处理器(Symmetric Multi-Processor (SMP))： 属于一种共享内存的硬件架构，并且不同的处理器对内存以及其它资源都具有同等的访问权限（个人理解，就是不同处理器在角色上没有任何区别）。
分布式内存(Distributed Memory)： 在硬件中，表示基于网络的内存存取方式；在编程模型中，表示任务仅仅能够从逻辑上“看到”本机上的内存，但是在其它任务执行的时候，必须通过通讯才能对其它任务所运行的机器上的内存进行存取。
通讯(communications)： 并行任务通常需要数据交换。实现数据交换的方式有多种，例如通过共享内存或者通过网络。但是通常意义上，数据交换指的就是通讯，而无论其实现方式。
同步(Synchronization)： 指的是并行任务之间的实时协调，通常伴随着通讯(communication)。同步通常由在程序中设立同步点来实现，也就是说，在其它任务没有执行到这一同步点的时候，某一任务不能进一步执行后面的指令。同步通常涉及到需要等待其它任务的完成，因此有时候会增加并行程序的执行时间。
粒度(Granularity)： 在并行计算中，粒度定量地描述了计算与通讯的比率。粗粒度表示在通讯过程中需要做大量的计算性工作；细粒度则表示在通讯过程中需要做的计算性工作并不多。
加速比(Observed Speedup)： 这是检测并行计算性能的最简单并且最被广泛使用的度量策略，其定义如下： $\\frac{串行计算的时钟周期数}{并行计算的时钟周期数}$ 。
并行开销(Parallel Overhead)： 指的是相对于做实际计算，做协调并行任务所需要花费的时间总数。影响并行开销的因素主要包括：1）任务启动时间；2）同步；3）数据通讯；4）由并行语言，链接库，操作系统等因素而导致的软件开销；5）任务终止时间。
大规模并行(Massive Parallel)： 指那些包含并行系统的硬件——拥有很多的处理元件。这里的“很多”可能会随着硬件条件的进步而不断增加，但目前，最大的并行系统所拥有的处理元件高达上百万件。
尴尬并行(Embarrassingly Parallel)： 指的是同时解决很多类似而又独立的任务，其中任务之间几乎没有需要协调的地方。
可扩展性(Scalability)： 指的是并行系统（包括软件和硬件）通过添加更多资源来成比例增加并行速度的能力。影响可扩展性的因素主要包括：1）硬件，尤其是内存-处理器带宽以及网络通讯的质量和速度；2）应用算法；3）相对并行开销；4）具体应用的特征。

3.4 并行程序的缺陷和代价

阿姆达尔定律： 阿姆达尔定律说一个程序的加速比潜力由其可以并行的部分所占的比例而决定，即：
$speedup = \\frac{1}{1 - P}$ .
如果没有代码可以被并行，那么p = 0，所以加速比为1。如果所有的代码都可以被并行，那么 p = 1，加速比为无穷大（当然只是理论上而言）。如果50%的代码可以被并行，那么最大的加速比为2，意味着的运行速度最快可以被加速到2倍。

如果引入并行程序中的处理器个数，则加速比可以被重新定义为：
$speedup = \\frac{1}{\\frac{P}{N} + S} = \\frac{1}{ 1 - P + \\frac{P}{N}}$ ，
其中P仍然是并行代码所占的比例，N是处理器个数，S是串行代码所占比例（S = 1 - P）。
这里写图片描述

N	P = 0.50	p = 0.90	p = 0.95	p = 0.99
10	1.82	5.26	6.89	9.17
100	1.98	9.17	16.80	50.25
1000	1.99	9.91	19.62	90.99
10000	1.99	9.91	19.96	99。02
100000	1.99	9.99	19.99	99.90

之后我们就迅速意识到并行计算的极限所在，例如上表所示。

“注明引言：”你可以花费一生的时间使得你的代码的95%都可以被并行，然而你如论投入多少处理器，都不会获得20倍的加速比。

然而，某些问题我们可以通过增加问题的大小来提高其性能。例如：

类型	时间	比例
2D网格计算	85秒	85%
串行比例	15秒	15%

我们可以增加网格的维度，并且将时间步长减半。其结果是四倍的网格点数量，以及两倍的时间步长。之后的花费时间将变为：

类型	时间	比例
2D网格计算	680秒	97.84%
串行比例	15秒	2.16%

比起具有固定并行时间百分比的问题，那些可以随着问题规模增大而不断提高并行时间百分比的问题在并行化的意义上更具有可扩展性（复习一下可扩展性的定义^_^）。

复杂性： 通常而言，并行计算的程序要比相应的串行计算程序更加复杂，也许复杂一个量级。你不仅需要同时执行不同的指令流，而且需要注意他们之间数据的通信。复杂性通常由涉及软件开发周期各个方面的时间来确定，主要包括：1）设计；2）编码；3）调试；4）调参；5）维护。

遵循良好的软件开发实践对并行应用开发是至关重要的，尤其是在除你之外的其他人还需要和你合作的情况下。

可移植性： 由于一些API的标准化，例如MPI，POSIX线程以及OpenMP，并行程序的可移植性问题并不像过去那么严重，然而：

所有串行程序中所遇到的可移植性问题都会出现在相应的并行程序中。
尽管一些API已经被标准话，但是在一些细节的实现上任然有差异，有时候这些细节实现会影响到可移植性。
操作系统也会是导致可移植性的关键因素。
硬件架构的不同有时候也会影响到可移植性。

资源需求：
并行编程的主要目标就是降低时钟等待时间。然而要做到这一点，需要更多的CPU时间。例如，一个在8个处理器上跑了一个小时的并行程序实际上花费了8小时的CPU时间。

并行程序所需要的内存开销往往要大于相对应的串行程序，这是因为我们有时候需要复制数据，以满足库和子系统对并行算法的要求。

对于运行时间较短的并行陈顾，实际性能反而有可能比相对应的串行程序有所降低。这是由于并行环境的建立，任务创建，通讯，任务结束等在这个运行时间中有可能会占有比较大的比例。

可扩展性：
基于时间和解决方案的不同，可以将扩展性分为强可扩展性和弱可扩展性：

强可扩展性的特点是：1）在更多处理器被加入的时候，问题本身的规模不会增加；2）目标是将同一问题运行的更快；3）理想状态下，相比于对应的串行程序，运行时间为1/P。

弱可扩展性的特点是：1）随着更多处理器被加入，每个处理上需要处理的问题规模保持一致；2）目标是在相同的时间内解决更多规模的问题；3）理想状态下，在相同时间内，可以解决的问题规模增加为原问题规模的P倍。

并行程序的性能提高取决于一系列相互依赖的因素，简单地增加更多的处理器并不一定是唯一的方法。

此外，某些问题可能本身存在扩展性的极限，因此添加更多的资源有时候反而会降低性能。这种情形会出现在很多并行程序中。

硬件在可扩展性方面也扮演者重要角色，例如：1）内存-CPU之间的带宽；2）通讯网络的带宽；3）某个机器或者某个机器集合中的内存大小；4）时钟处理速度。

支持并行的库或者子系统同样也会限制并行程序的可扩展性。
这里写图片描述

4 并行计算机的内存架构

4.1 共享内存

一般特征： 共享内存的并行计算机虽然也分很多种，但是通常而言，它们都可以让所有处理器以全局寻址的方式访问所有的内存空间。多个处理器可以独立地操作，但是它们共享同一片内存。一个处理器对内存地址的改变对其它处理器来说是可见的。根据内存访问时间，可以将已有的共享内存机器分为统一内存存取和非统一内存存取两种类型。

统一内存存取(Uniform Memory Access)： 目前更多地被称为对称多处理器机器(Symmetric Multiprocessor (SMP))，每个处理器都是相同的，并且其对内存的存取和存取之间都是无差别的。有时候也会被称为CC-UMA (Cache coherent - UMA)。缓存想干意味着如果一个处理器更新共享内存中的位置，则所有其它处理器都会了解该更新。缓存一致性是在硬件级别上实现的。

这里写图片描述

非统一内存存取(Non-Uniform Memory Access)： 通常由两个或者多个物理上相连的SMP。一个SMP可以存取其它SMP上的内存。不是所有处理器对所有内存都具有相同的存取或者存取时间。通过连接而进行内存存取速度会更慢一些。如果缓存相缓存想干的特性在这里仍然被保持，那么也可以被称为CC-NUMA。

这里写图片描述

优点：全局地址空间提供了一种用户友好的编程方式，并且由于内存与CPU的阶级程度，使得任务之间的数据共享既快速又统一。

缺点：最大的缺点是内存和CPU之间缺少较好的可扩展性。增加更多的CPU意味着更加共享内存和缓存想干系统上的存取流量，从而几何级别地增加缓存/内存管理的工作量。同时也增加了程序员的责任，因为他需要确保全局内存“正确”的访问以及同步。

4.2 分布式内存

一般概念： 分布式内存架构也可以分为很多种，但是它们仍然有一些共同特征。分布式内存结构需要通讯网络，将不同的内存连接起来。一般而言，处理器会有它们所对应的内存。一个处理器所对应的内存地址不会映射到其它处理器上，所以在这种分布式内存架构中，不存在各个处理器所共享的全局内存地址。
这里写图片描述

由于每个处理器具有它所对应的局部内存，所以它们可以独立进行操作。一个本地内存上所发生的变化并不会被其它处理器所知晓。因此，缓存想干的概念在分布式内存架构中并不存在。

如果一个处理器需要对其它处理器上的数据进行存取，那么往往程序员需要明确地定义数据通讯的时间和方式，任务之间的同步因此就成为程序员的职责。尽管分布式内存架构中用于数据传输的网络结构可以像以太网一样简单，但在实践中它们的变化往往也很大。

优点： 1）内存可以随着处理器的数量而扩展，增加处理器的数量的同时，内存的大小也在成比例地增加；2）每个处理器可以快速地访问自己的内存而不会受到干扰，并且没有维护全局告诉缓存一致性所带来的开销；3）成本效益：可以使用现有的处理器和网络。

缺点： 1）程序员需要负责处理器之间数据通讯相关的许多细节；2）将基于全局内存的现有数据结构映射到该分布式内存组织可能会存在困难；3）非均匀的内存访问时间——驻留在远程结点上的数据比本地结点上的数据需要长的多的访问时间。

4.3 混合分布式-共享内存

一般概念： 目前世界上最大和最快的并行计算机往往同时具有分布式和共享式的内存架构。共享式内存架构可以是共线内存机器或者图形处理单元(GPU)。分布式内存组件可以是由多个共享内存/GPU连接而成的系统。每个结点只知道自己的内存，不知道网络上其它结点的内存。因此，需要在不同的机器上通过网络进行数据通讯。

从目前的趋势来看，这种混合式的内存架构将长期占有主导地位，并且成为高端计算在可见的未来中的最好选择。

优缺点： 1）继承了共享式内存和分布式内存的优缺点；2）优点之一是可扩展性；3）缺点之一是编程的复杂性。

5. 并行计算模型

5.1 概述

常见的并行编程模型包括：共享内存模型（无线程），线程模型，分布式内存/消息传递模型，数据并行模型，混合模型，单程序多数据模型，多程序多数据模型。

并行计算模型是作为硬件和内存架构之上的一种抽象存在。虽然不一定显而易见，但这些模型并不和特定的机器和内存架构有关。事实上，任何一个并行计算模型从理论上来讲都可以实现在任何一种硬件上。下面是两个例子。

在分布式内存架构上的共享内存模型。 机器内存分布于网络上的不同结点，但是对于用户而言，看到的确实一个具有全局地址空间的共享内存。这种方法通常被称为“虚拟共享存储器”。
这里写图片描述

在共享内存架构上的分布式内存模型。 最主要的是消息传递接口（MPI）。每个任务都可以直接访问跨所有机器的全局地址空间。然而，它们之间数据交换却是通过消息传递机制实现的，就像在分布式内存网络中所进行的那样。
这里写图片描述

那么到底使用哪一种呢？这往往取决于现有条件以及用户的偏好。没有最好的模型，但对模型的实现质量却可能存在差别。下面我们将分别描述上面提到的各种并行计算模型，并且讨论它们在实践中的一些实现方式。

5.2 共享内存模型（无线程）

在这种并行计算模型中，处理器/任务共享内存空间，并且可以异步地对内存进行读写。很多机制被用来控制对内存的存取，例如锁/信号量等，用来解决访问冲突以及避免死锁。这应该是最简单的并行计算模型了。

从编程者的角度来看，这种模型的好处之一数据“拥有者”的缺失，所以他们不必明确地指定数据之间的通讯。所有的处理器都可以看到和平等地存取共享内存。程序开发将因此而变得容易。

性能方面的一个重要缺点是对数据局部性的理解和管理讲变得困难：1）保持数据的局部性将有利于减少内存的存取负担，缓存刷新次数以及总线流量。而当多个处理器使用同一数据时，这些负担将会经常发生；2）不幸的是，保持数据的局部性往往比较难以理解，并且其难度超过一般用户的水平。

这里写图片描述

实现： 单机共享内存机器，本地操作系统，编译器及其对应的硬件都支持共享内存编程。在分布式内存机器上，内存在物理上存在于网络上不同的结点上，但是可以通过特殊的硬件和软件，将其变为全局可见。

5.3 线程模型

这是共享内存编程的一种模式。在线程模型中，一个单个的“重量级”进程可以拥有多个“轻量级”的并发执行路径。例如下图所示：

主程序 a.out 在本地操作系统上运行。a.out 需要加载所有的系统和用户资源来运行，这是里面的“重量级”进程。
a.out 首先执行一些串行工作，然后生成一系列任务（线程），而这些线程可以在操作系统中被并发地执行。
每个线程具有本地数据，但同时也共享 a.out 的所有资源。这节约了所有线程都复制程序资源的的开销。而每个线程同时也从全局内存中获益，因为它可以共享 a.out 的内存空间。
一个线程的工作可以被描述为主程序的一个子程序。任何线程都可以在其它线程运行的同时执行任何子程序。
线程之间的通讯通过全局内存来实现（对全局地址的更新）。这需要建立一种同步机制，以保证在同一时刻，不会有多个线程对同一块地址空间进行更新。
线程可以随时生成和结束，但是 a.out 却一直存在，以提供所需的共享资源，直到整个应用程序结束。

这里写图片描述

实现： 从编程的角度来讲，线程的实现通常包括如下两个方面：

库函数或者子程序，这些库函数或者子程序可以在并行源代码中被调用；
嵌入在并行或者串行源代码中的一组编译器指令集合。

程序员需要同时定义上面的两个方面（尽管有时候编译器可以提供帮助）。

线程并不是一个新概念。之前硬件供应商就曾经实现过他们自己的线程。由于这些线程的实现各不相同，所以使得程序员很难开发可移植的多线程应用程序。

而标准化工作却导致了两种完全不同的线程实现方式：POSIX Threads 和 OpenMP。

POSIX Threads：由IEEE POSIX 1003.1c standard (1995)定义，仅支持C语言，是Unix/Linux操作系统的一部分，是基于库函数的，也通常被称为“Pthreads”。是非常明确的并行机制，需要程序员注意大量的细节。更多信息可见：POSIX Threads tutorial。

OpenMP：是一个工业标准，有一组主要计算机硬件和软件提供商，组织和个人联合发起和定义，是基于编译器指令的，具有可移植性/跨平台性，目前支持的包括Unix和Windows平台，目前支持C/C++和Fortran语言。非常简单和医用，提供了“增量并行”，可以从串行代码开始。更多信息可见：OpenMP tutorial。

也有一些其它的常见线程实现，但是在这里没有讨论，包括：

Microsoft threads
Java, Python threads
CUDA threads for GPUs

5.4 分布式内存/消息传递模型

这种模型具有如下特点：

在计算的过程中，每个任务都仅仅使用它们自身的本地内存。多个任务既可以寄宿在同一个物理机器上，也可以跨越不同的物理机器。
任务之间的数据交换是通过发送和接收消息而实现的。
数据传输通常需要不同进程之间的协同操作才能实现。例如，一个发送操作需要同时对应一个接收操作。

这里写图片描述

实现： 从编程的角度来讲，消息传递的实现通常包括子程序库。对这些子程序的调用往往就嵌入在源代码中。编程者负责并行机制的实现。

自从1980年代以来，出现了多种消息传递库函数。这些实现各不相同，导致编程者很难开发出移植性好的应用程序。自从1992年开始，MPI Forum形成，其主要目标是建立消息传递的标准接口。消息传递接口（Message Passing Interface (MPI)）的第一部分在1994年发布，第二部分在1996年发布，第三部分在2012年发布。所有的MPI说明可以参见 http://mpi-forum.org/docs/。MPI成为了事实上的消息传递的工业标准，取代了所有其它消息传递的实现。几乎所有流行的并行计算平台都存在MPI的实现，但并不是所有的实现都包含了MPI-1，MPI-2和MPI-3的所有内容。关于MPI的更多信息可以参见 MPI tutorial。

5.5 数据并行模型

通常也被称为“全局地址空间分区”（Partitioned Global Address Space (PGAS)）模型。具有如下特点：

地址空间被认为是全局的。
大多数的并行工作聚焦于在数据集上的操作。数据集通常被组织成为常用的结构，例如数组，数立方等。
一系列任务在同一块数据结构上操作，但是每个任务却操作在该数据结构的不同分区上。
每个任务在数据结构的不同分区上执行相同的操作，例如，“给每个数组元素加上4”。

这里写图片描述

在共享内存的架构下，所有的任务通过全局内存方式来对数据进行存取；在分布式内存架构下，根据任务分配，全局数据结构在物理或者逻辑上被进行分割。

实现： 目前，基于数据并行/PGAS模型，有如下几个相对有名的实现：

Coarray Fortran: 为了支持SPMD并行编程而在Fortran 95上做的一个小的扩展，是编译器相关的，更多信息可以参见：https://en.wikipedia.org/wiki/Coarray_Fortran。
Unified Parallel C (UPC): 为了支持SPMD并行编程而在C语言基础上做的扩展，也是编译器相关的，更多信息可以参见：http://upc.lbl.gov/。

[译][并行计算] 1. 并行计算简介

并行计算简介

1 摘要

2 概述

2.1 什么是并行计算？

2.2 为什么要并行计算？

2.3 谁都在使用并行计算？

3 概念和术语

3.1 冯诺依曼体系结构

3.2 弗林的经典分类

3.3 一些常见的并行计算术语

3.4 并行程序的缺陷和代价

4 并行计算机的内存架构

4.1 共享内存

4.2 分布式内存

4.3 混合分布式-共享内存

5. 并行计算模型

5.1 概述

5.2 共享内存模型（无线程）

5.3 线程模型

5.4 分布式内存/消息传递模型

5.5 数据并行模型

以上是关于[译][并行计算] 1. 并行计算简介的主要内容，如果未能解决你的问题，请参考以下文章