GPU和CPU之间是如何协调数据处理的

Posted 2023-03-09

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了GPU和CPU之间是如何协调数据处理的相关的知识，希望对你有一定的参考价值。

要有过程!! 不要把不相关的写上来。也不要网上随便拉点下来敷衍，除非文章是正面回答了我的问题。
最好专业一点，详细一点，跪求了···
这里再加50分
我想要的过程是指，CPU是怎么把数据传给GPU处理的，GPU处理完这些数据后，是不是还要回传给CPU，是怎么回传的，为什么要回传。就是类似这样的过程，文章详细一点，谢谢！

因为设计的目标不同，当今的CPU和GPU功能上有本质的不同。作为通用处理器的CPU，顾名思义，它是设计用来处理通用任务的处理、加工、运算以及系统核心控制等等的。CPU中包含的最基本部件有算术逻辑单元和控制单元，CPU的微架构是为高效率处理数据相关性不大的计算类、复杂繁琐的非计算类的等等百花八门的工作而优化的，在处理日常繁复的任务中应付自如。

计算机的“灵魂”——操作系统，以及几乎100%的系统软件都主要仰仗CPU来顺利运行。CPU面对的算术、逻辑运算以及控制处理是非常繁琐和复杂的，面对处理的数据和信息量不仅数量多而是种类多。CPU运算和控制多面手的这种设计，让它在计算机中得心应手，位置不可动摇。

GPU设计的宗旨是实现图形加速，现在最主要的是实现3D 图形加速，因此它的设计基本上是为3D图形加速的相关运算来优化的，如z-buffering 消隐，纹理映射(texture mapping)，图形的坐标位置变换与光照计算(transforming & lighting)等等。这类计算的对象都是针对大量平行数据的，运算的数据量大，但是运算的类型却并不复杂，大多类似和雷同，计算性强但是逻辑性不强，如矩阵运算就是图形运算的典型特性。

如今的游戏，单单从图象的生成来说大概需要下面四个步骤：

1、Homogeneous coordinates（齐次坐标）
2、Shading models（阴影建模）
3、Z-Buffering（Z-缓冲）
4、Texture-Mapping（材质贴图）
在这些步骤中，显示部分（GPU）只负责完成第三、四步，而前两个步骤主要是依靠 CPU 来完成。而且，这还仅仅只是3D图象的生成，还没有包括游戏中复杂的AI运算。场景切换运算等等……无疑，这些元素还需要CPU去完成，这就是为什么在运行《魔兽世界》的时候，当场景切换时再强劲的显卡都会出现停顿的现象。
对于需要CPU进行大量AI运算的游戏来说，在固定的显示分辨率下，CPU的架构越强、主频越高的确有一定的优势。著名的FPS第一人称设计游戏——CSS，就是一个很好的例子。当你开启了30个左右的机器人，在大混战的时候就很容易体现出高端CPU与入门级CPU之间的区别了。
打造一套完整的游戏 PC 系统，CPU和显卡的搭配应该相得益彰，高成低就或低成高就都是不平衡的组合方式。

第一代 GPU 首先，CPU将数据传递给GPU进行处理，数据先进入T&L单元中的Transform Engine，在这里，数据将以顶点的形式接受视野范围的判断，当处理单元判断某部分顶点处于观察者的视线范围以外时，Transform Engine将把这部分顶点“剪除”以使其不会干扰后续的流水线操作, 具个简单的例子：当你在某FPS游戏中突然打开狙击枪的狙击镜，视野变成了一个圆形的空洞，而其他部分则为黑色，这时 Transform Engine将去除这个圆形视野范围以外的所有顶点，不过，这里进行的只是视野范围的判断，Transform Engine去除在你的视线范围内但是被其它东西挡住了的物体，另外，每一个三角形可能被旋转，放大/缩小，上升，下降，左偏，右移等。这就是多边形转换转换。 Transform Engine根据你的视角，改变了由程序提供的组成3D物体的顶点的坐标。经过Lighting Engine处理后的图象经过判断处理后的数据将流入T&L单元中的Lighting Engine，根据光源的类型，距离，角度，数目，应用方式等不同参数，每一个多边形都会有不同的光影表现和光影关系，因而需要不同的光线函数予以表征，在Lighting Engine中，处理单元将根据软件提出的光源分布情况为每个顶点计算出它所具有的光线矢量，以便后续进行的光线纹理贴图，着色等操作
经过Lighting Engine处理的画面
其实，经由T&L单元处理过的数据还只是抽象的数据，并不是具体的图形，上面两副图仅仅是方便读者进行想象的示意图。
接下来数据将流入Setup Engine，在这里，运算单元将进行三角形的设置工作，这是整个绘图过程中最重要的一个步骤，Setup Engine甚至直接影响着一块GPU的执行效能。三角形的设置过程是由一个一个的多边形组成的，或者是用更好的三角形代替原来的三角形。在三维图像中可能会有些三角形被它前面的三角形挡住，但是在这个阶段3D芯片还不知道哪些三角形会被挡住。所以三角形建立单元接收到的是一个个由三个顶点组成的完整三角形。三角形的每个角（或顶点）都有对应的X轴、Y轴和Z轴坐标值，这些坐标值确定了它们在3D景物中的位置。同时，三角形的设置也确定了像素填充的范围
经过Setup Engine处理的画面
最终着色完毕的画面
在三角形设置完毕后，T&L单元的全部运算就完成了。接下来数据将进入NV15独有的NSR像素处理单元进行一定的像素处理，接着流入像素流水线进行后续的纹理像素填充等操作，这部分操作在DriectX7.0中的变化并不明显，基本的渲染填充过程与过去的显卡几无二异
T&L虽然再一定程度上缓解了CPU运算能力的不济所带来的瓶颈，使得系统在图形方面的资源得到了再分配和增强，但同时，T&L也将新的矛盾转到了GPU上
T&L是一组相对固定的简单的图形函数，所实现的特效受到了函数本身语句的限制，虽然这种固定的指令集设计可以带来比较高的执行效率，但这种设置使得DX7下所能实现的特效受到了指令集的约束，许多逼真的特效无法实现，程序员的思想也被限定在一个相对狭窄的范围内。
2、我要看到你飘逸的秀发和迷人的微笑—可编程Shader以及第二代GPU
DriectX8.0在传统T&L的基础上加入了两个新的概念—可编程的Vertex Shader和Piexl Shader，同样的，第二代 GPU的标志就是硬件级别的可编程Shader运算，代表产品为NV2X（Geforce3/4Ti），R2XX（Radeon8500）等
可编程Shader的复杂程度远非T&L可比，为了方便大家理解第二代GPU的特点，我们先来认识一下什么是可编程Shader，以及可编程Shader运算单元
可编程Vertex Shader及顶点处理器：
可编程Vertex Shader让程序员能够对特定物体，甚至整个画面的每一个顶点，指定特别的运算程序，却不需要CPU介入。每一个顶点都携带相当多的信息，比如坐标，重量，法线，颜色，纹理坐标，雾和点大小数据。顶点处理器能够以简短的程序来改变上述这些信息。这些小程序直接由顶点着色引擎本身执行，不必劳驾CPU。典型的T&L引擎将程序员限制在3D运算的光影转换之前，在有了顶点处理器的支持之后，游戏设计师对游戏场景里的3D物体能够为所欲为的操纵变化，而且不需要用到中央处理器。
这导致了一场革新，程序可以改变顶点的坐标，这样基本上改变物体的形状，以达到更接近真实的移动、移动残影、混色、内插（在两种外型间转换），以及变形，比如改变角色脸部的骨骼和皮肤一个产生一个适时的微笑。也可改变顶点上的颜色数据和纹理坐标，物体表面的颜色达到设计师所想要的色彩效果、投影、凹凸贴图设置（如Blinn Bump mapping）或者其它投射的纹理。光源也可以为程序员随心所欲的调整，不再像过去那样需要对光源的效果进行笨拙的光线纹理贴图，而这些在以前是不可想象的。这一切都归功于可编程Vertex Shader和顶点处理器的出现
Blinn Bump mapping
可编程Piexl Shader以及像素处理器
在NV15中，nVidia曾经尝试加入一个叫NSR的像素处理单元，它可以在数据进入像素流水线之前对每个像素进行一系列运算操作，虽然同为每像素操作，但NSR与Piexl Shader可不能同日而语， NSR对于像素的运算只有7种，同T&L一样，它依然是固定模式的，程序员依然要依照规定好的条条框框写出程序，而Piexl Shader则不同，我们可以用许多不同方式去编程，以实现不同的特效，下面就是一般的像素处理器所具备的特性：
· 阴影贴图
· 快速纹理载入
· 影像乘法，对称核心
· 支持4096x4096或512x512x512 纹理
· 立方体贴图每边可4096x4096x32-位
· 支持YUYV的纹理（自动转换成RGB三原色）
· 支持全景贴图
可以指向任何一个图像，如背景缓冲区（back buffer），而可直接当作纹理使用
· 边缘色彩及边缘纹理
· 硬件同步化读/写
对同一张纹理的读及写允许全流水线操作。
可以对背景缓冲区着色，然后马上能当作纹理使用
· Pass through colors
· 支持DX6规格的环境凹凸/亮度贴图（就是环境凹凸贴图）
· 简单的纹理，S,T 在alpha/红(AB)及蓝/绿 (BG)
· 等向的双方向性反射分布功能光源
· 内积产生色彩贴图或Z坐标
· 真实反射凹凸贴图
这看起来似乎有点抽象，简单的说，可编程Piexl Shader实现了一个非常重要的特效—真实的毛发
古老街道上昏暗灯光中的狼人
在3D渲染中，渲染真实的毛发一直是一件非常困难的事情，大量的多边形给多边形生成带来了严峻的考验，而每一根毛发之间复杂多变的即时光影关系更不是几个简单固定的指令所能实现的。Piexl Shader的可编程性和运算能力很好的解决了这个问题
好啦，现在让我们来看看第二代GPU是如何完整处理一个画面的吧
首先，来自CPU的各种物理参数进入GPU，Vertex Shader将对顶点数据进行基本的判断，如果没有需要处理的Vertex效果，则顶点数据直接进入Transform&Lighting Unit进行传统的T&L操作以节约时间提高效率，如果需要处理各种Vertex效果，则 Vertex Shader将先对各种Vertex Programs的指令进行运算，一般的Vertex Programs中往往包含了过去转换，剪切，光照运算等所需要实现的效果，故经由Vertex Shader处理的效果一般不需要再进行Transform&Lighting操作；另外，当遇到涉及到曲面镶嵌（把曲面，比如弓形转换成为多边形或者三角形）的场合时，CPU可以直接将数据交给Vertex Shader进行处理
另外，在DX8.0的Transform过程中，Vertex Shader可以完成Z值的剔除，也就是Back Face Culling—阴面隐去，这就意味着除了视野以外的顶点外，视野内被前面顶点遮住的顶点也会被一并剪除，这大大减轻了需要进行操作的顶点数目
接下来，经由Vertex Shader处理完成的各种数据将流入Setup Engine，在这里一如既往的进行三角形的设置工作，到这里为止，Vertex Shader的工作就完成了
过去，设置好的三角形本来应该带着各自所有的参数进入像素流水线内进行纹理填充和渲染，但现在则不同，在填充之前我们还需要进行Piexl Shader的操作
其实Piexl Shader并非独立存在的，它位于纹理填充单元之后，数据流入像素流水线后先进入纹理填充单元进行纹理填充，然后便是 Piexl Shader单元，经由Piexl Shader单元进行各种处理运算之后再进入像素填充单元进行具体的着色，再经由雾化等操作后，一个完整的画面就算完成了
值得注意的是，第二代GPU中普遍引入了独立的显示数据管理机制，他们位于Vertex Shader，Setup Engine以及像素流水线之间，负责数据的更有效率的传输、组合，各种无效值的剔除，数据的压缩以及寄存器的管理等工作，这个单元的出现对整个GPU的工作效率的保证其到了至管重要的作用。
HyperZ系列：HyperZ技术本身就是一种类似nVIDIA的“Z-封闭甄别”的技术，但是比nVIDIA还更进一步。它的主要功能简单说来就是分析在Z轴上的场景，被遮挡的就会被忽略掉，只渲染我们能看到的部分场景；然后对渲染过的Z轴场景进行压缩处理，数据的压缩可减少他所占用的空间，从而在存取Z-Buffer数据的时候可以保留更多的显存带宽。而且这是一种画面质量没有损害的压缩算法，并不影响画面质量。最后一步就是把经过渲染的场景中的Z -Buffer信息立刻清除掉，这样就更加大了显存带宽的利用率。
LMA（光速显存架构）系列：光速显存架构采用的第一个技术是“显存交错控制”技术， LMA中的显存控制器划分成了4个独立的显存控制单元，每个单元最大可以进行32bit图形相关数据的存取工作，并且这4个单元之间以及它们和图形处理单元之间都保持密切的通讯联系，并随时协调平衡各个子单元之间的数据流量，因此整体来看LMA的显存控制单元还是可以进行128bit数据的存储，但是保证了显存带宽的充分利用。光速显存架构采用的第二个技术是“无损Z压缩算法”。传统的图形芯片对于每个待渲染的图形象素都要进行Z轴数据的读写工作，因此存储这些数据的Z缓存一向是消耗显存带宽的大户。LMA中集成了硬件 “无损Z压缩”单元，采用“无损Z压缩算法”对Z－缓存数据进行4:1的完全无损压缩。光速显存架构采用的第三个技术是“Z-封闭甄别”。排除了图象中被遮盖住而不可见的部分，这样GPU就不做隐面模型构建(节省处理器的多边形运算资源),并且渲染管线也不对隐面进行渲染(无需从帧缓存中读写隐面资料数据,节省渲染管线的象素和纹理生成资源并完全消灭了隐面资料对显存带宽的占用)。最后，LMA还包括了4组高速Cache，对数据传输进行缓冲。
3、梦中的镜花水月—可编程Shader2.0以及第三代GPU
当你第一次看到3Dmark03中的MotherNature时，你有没有感觉到震撼？
更加宽泛的色彩范围能够使得图形的逼真度上升，这就是Shader2.0的由来，Shader2.0的核心实际上就是以扩大指令数目以及FLOAT数据形式的应用来提高色彩表达的精确度，而第三代GPU的Shader单元也由此而具备了高精度FLOAT色彩数据的运算能力。从一般角度来讲，第三代GPU同第二代GPU相比在基本的操作控制形式等方面并没有本质的区别，但是由于Shader2.0更大的指令长度和指令个数，以及通用程序+子程序调用的程序形式等使得第三代GPU在处理高精度的庞大指令时效率上有了明显的提升，同时也使得第三代GPU的可编程性跃上了一个新的台阶
让我们来看看第三代GPU到底有哪些改进吧
Vexter Shader部分
第三代GPU的顶点处理器部分除了一般的操作功能外还具备流程控制能力，包括循环，跳跃以及子程序调用等，这些控制指令以及更多向量（或标量）寄存器的应用使得顶点处理器能够以更高的效率执行Vertex Programs，提高了Vertex的处理速度。同时，加大的指令长度和指令数量使得顶点处理器的功能得到了进一步的强化。另外，在第三代GPU中，传统的T&L数据将完全交由顶点处理器来执行，Transform& Lighting Unit将彻底被顶点处理器“吞并”，这也是第三代GPU的一个重要特点
Piexl Shader部分
第二代GPU的Piexl Shader只能实现INT数据的运算，这势必会带来最终运算结果的不精确，而数据的不精确导致了颜色表现的不准确，干扰了最终画面的质量以及效果的表现，第三代GPU的重点改进就是运算单元和寄存器所支持的运算格式，现在Piexl Shader可以进行更高精度的FLOAT 运算和输出，从而使得图形的色彩显示更加精确
暴光正确的图象
数据精度不当而无法实现的特种暴光
另外，第三代GPU的像素处理器每周期所能处理的材质以及指令也分别增加了数倍，这些新特性使得第三代GPU可以处理各种复杂程度的效果，营造一个更为真实的3D画面，比如更加真实的水面效果
INT Piexl Shader所表现的水面效果
FLOAT Piexl Shader所表现的水面效果
传统的INT无法表现宽泛的波浪效果，程序员害怕数据精度范围狭窄引起的上溢或者下溢的发生而不得不在一个很小的物理参数范围内控制涟漪水面所需的波长、波浪的大小、移动速度以及反射和折射效果等，现在，由于数据精度的提升，像素处理器完全可以处理一个非常宽泛的数据精度范围，避免数据的溢出，这就使得更加真实的水面效果得以被表现。第三代GPU的代表是NV3X系列，R3XX系列等，其中R3XX系列的基本处理方式和顺序与第二代GPU在本质上基本相同，仅仅是Vertex Shader和Piexl Shader的具体操作细节和运算精度上有些许不同，而NV3X虽然在基本原理上也与之大略相同，但从流水线的角度来看则与完全不同，应该算是个“异类”。产生过程，只分析一下NV3X
以NV35为例：
首先，他具有8个纹理帖图单元，但8个纹理贴图单元并不在固定分布于每一条Piexl流水线，而是集簇在一起，根据情况来搭配，可以是4*2、8*1。
其次，他具有12条Shader流水线，但没有全盘采用浮点渲染流水线，而只是把12条Shader流水线中的8条做成具备浮点处理能力;不过全部12条Shader流水线都具备Fixed-Point Shader的执行能力。
另外，NV3X将流水线后部的各种渲染单元，如雾化，Alpha混合等大幅削减，使得流水线在一定程度上公用这些单元
NV30的构架组成形式基本上与之相当，只是数目上略有不同
由于这个构架并不是传统意义上的4*2或者8*1的固定构架，我们不能象过去那样说NV35“每个流水线具有2个纹理帖图单元”或者“每条管线具有3个Shader流水线”……我们只能说“NV35单位周期可以完成8次左右的纹理贴图或者12次Shader操作”
另外，由于NV3X对于Fixed-Point Shader的支持精度是FP16和FP32，同时NV3X的Shader流水线的单位Fixed- Point Shader处理精度是16位，所以当遇到32位Fixed-Point Shader数据时，能进行Fixed-Point Shader 数据处理的8条Shader流水线也会根据情况进行搭配来运算32位的Fixed-Point Shader数据
Pixel Programs往往是由多条指令构成的，不同的指令需要不同的执行时间来完成，每个像素必须在应用在它“身上”的Pixel Shader 操作完成后才能由像素流水线写入到帧缓存里。故此，对于应用了Piexl Shader的像素实际上是需要多个以上的周期才能写入到帧缓存里，如果采用8 条完整的渲染流水线的话，流水线后面的雾化、色彩混合等单元很多时候都会处在等待阶段，这部分单元需要占用的晶体管数量不在少数，如果这样浪费就怪可惜的，砍掉后其中的雾化等单元后，对整体的性能虽然有一些影响，但是却可以把节省下来的晶体管用于加强Pixel Shader的功能和性能上来，同时可以保证比较高的多重纹理效率，利大于弊。
简单的，这个有点诡异的体系节省晶体管的同时能确保相对较好的Pixel Shader效能，同时还有极高的多重贴图效能
nVidia本指望4条Pixel管线+ 12条Shader流水线的设计能够在现在以及未来较长的一段时间的游戏里提供超过4条甚至8条 Pixel Pipeline显卡的效能。不过，实际情况却与nVidia的初衷有些背道而驰，Shader的完美应用带来的一个结果就是越来越好的非多纹理光效果，传统的多纹理贴图才能表现的很好的光效果现在只需要进行一次贴图或者直接使用Shader就可以达到，这使得NV3X的设计成为了空架子，实用意义大大降低，而在单纹理处理过程中由于NV3X的后续效果单元被削减，它的渲染效能注定没有传统的完整流水线高，另外，由于DX9中的最终FP精度被定义为FP24，这导致了NV3X的相对低下的FP效能。最终，本来“先进”的NV3X构架落的个整体效能低下的下场
从本质上来讲，图形数据在NV3X中的实际处理过程依然是沿着顶点处理器—Setup Engine—像素流水线的顺序进行的，这与R3XX以及所有的第二代GPU是相同的
天堂的入口—可编程Shader3.0，DriectX Next以及未来的GPU
在微软刚刚公布的Driect9.0C中，Vertex Shader和Piexl Shader已经具有了几乎相同的能力，而在nVidia新发布的第四代GPU—NV40中，我们发现Vertex Shader包含了4个纹理取样器，可以使用texld指令进行查表操作， NV40可以在一个 shader pass里完成4个纹理的读取，这个对于通用替换贴图而言相当的重要，有了vertex texturing功能后， vertex shader就能读取纹理信息直接映射到顶点上，以实现displacement mapping（位移映射）等等效果，用不同的纹理和较少的顶点传输时间就能实现外形复杂、平滑的模型，这表明GPU中Vertex Shader的功能正在逐渐接近Piexl Shader。随着GPU的发展，未来GPU中的Vertex Shader和Piexl Shader最终将被合并成一个统一的处理单元—Intergrated Shader，两种处理单元将使用完全相同的语法以及指令集，Shader的统一将带来完全不同与现在的数据执行处理方式，GPU的内部结构将发生本质的变化， Intergrated Shader带来了更低晶体管数目的解决方案，以更少的晶体管数目来完成现在需要数亿晶体管才能完成的功能，同时统一 Shader将引出类似全通用I/O接口的设计以利资源的更合理的传输和分配，同时，为了解决越来越庞大的数据量，虚拟显存、无限资源访问以及帧缓冲操作等技术的引入也势在必行。另外，我们在DirectX Next中还发现了整数指令集，处理器等特殊的定义，这些新颖的设计为我们勾勒出了未来GPU的轮廓
整数指令集
在编程中不必在担心指令限制是一个很大的进步，不过想使得GPU更为通用还需要更多的工作。一个需要提高的主要区域就是整数处理能力。目前基于在着色器中处理的所有数据都是浮点，这对于大多数显卡操作而言是没有问题的，不过不适合动态分支预测、非内插式显存搜索（如顶点缓冲的索引）等操作。在目前的GPU 中，唯一的内存寻址就是纹理查找，使用的也是浮点值。这样的情况对于纹理定位而言没有什么问题，不过对于通用内存寻址而言就不合适了，这里的连续内存块可以完全彼此没有关联，采用内插式查找没有任何意义。微软对于这样的情况，在4.0版的Shader模型中引入了全新的、完整的整数指令集。拓扑处理器实际上，目前的显卡可以在某些情况下新生成三角形，比如在用到直线以及点的时候。大多数的娱乐级显卡只具备对三角形进行光栅化处理的能力，这也就意味着所有的点、线就必须转化为三角形。点和线在最后都将以2个三角形结束，这样就需要用到2-6个顶点（根据索引方式的不同而变化）。从本质上来说，这样的做法是有益处的，通过可编程的管线，显示先前应该遮蔽的场景也就无需通过CPU，而可以通过微软的“拓扑处理器”直接完成。从逻辑上来说，这个拓扑处理器和镶嵌单元是相互独立的，这个处理器在两种操作集中均可以使用。由目前的趋势来看，未来的GPU将向着高运算能力，高精度，高通用性的方向发展，GPU在工作方式上将越来越接近CPU，由于高通用性等CPU特性的引入，GPU可能在一定程度上替代一部分CPU在非绘图领域的工作，也许在未来我们会看到由全GPU组成的图形工作站。尽管未来GPU需要面对由于这些改进而带来得的诸多问题，尤其是通用性导致的效率低下，比如Intergrated Shader的效率低下，但随着时间的推移，各种问题都将会得到妥善的解决。参考技术A 简单（而不一定绝对科学）的说：GPU主要完成对3D图形的处理--图形的生成渲染。

GPU的图形（处理）流水线完成如下的工作：（并不一定是按照如下顺序）顶点处理：这阶段GPU读取描述3D图形外观的顶点数据并根据顶点数据确定3D图形的形状及位置关系，建立起3D图形的骨架。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的Vertex Shader（定点着色器）完成。光栅化计算：显示器实际显示的图像是由像素组成的，我们需要将上面生成的图形上的点和线通过一定的算法转换到相应的像素点。把一个矢量图形转换为一系列像素点的过程就称为光栅化。例如，一条数学表示的斜线段，最终被转化成阶梯状的连续像素点。纹理帖图：顶点单元生成的多边形只构成了3D物体的轮廓，而纹理映射（texture mapping）工作完成对多变形表面的帖图，通俗的说，就是将多边形的表面贴上相应的图片，从而生成“真实”的图形。TMU（Texture mapping unit）即是用来完成此项工作。像素处理：这阶段（在对每个像素进行光栅化处理期间）GPU完成对像素的计算和处理，从而确定每个像素的最终属性。在支持DX8和DX9规格的GPU中，这些工作由硬件实现的Pixel Shader（像素着色器）完成最终输出：由ROP（光栅化引擎）最终完成像素的输出，1帧渲染完毕后，被送到显存帧缓冲区。

总结：GPU的工作通俗的来说就是完成3D图形的生成，将图形映射到相应的像素点上，对每个像素进行计算确定最终颜色并完成输出。

要讲CPU，就必须先讲一下指令系统。指令系统指的是一个CPU所能够处理的全部指令的集合，是一个CPU的根本属性。比如我们现在所用的CPU都是采用x86指令集的，他们都是同一类型的CPU，不管是PIII、Athlon或Joshua。我们也知道，世界上还有比PIII和Athlon快得多的CPU，比如Alpha，但它们不是用x86指令集，不能使用数量庞大的基于x86指令集的程序，如Windows98。之所以说指令系统是一个CPU的根本属性，是因为指令系统决定了一个CPU能够运行什么样的程序。' ~/ r, o$ A5 L# B: C, ]% y

! s/ Y' n0 ?" U7 Q/ k D" O 所有采用高级语言编出的程序，都需要翻译（编译或解释）成为机器语言后才能运行，这些机器语言中所包含的就是一条条的指令。
- w8 l% [; i1 k H0 S0 g6 l0 l
% I" |1 B* W7 , ~ 1、指令的格式
2 F- R* n6 f, C. W m) s# J
1 b9 R8 J0 c$ b( C6 h 一条指令一般包括两个部分：操作码和地址码。操作码其实就是指令序列号，用来告诉CPU需要执行的是那一条指令。地址码则复杂一些，主要包括源操作数地址、目的地址和下一条指令的地址。在某些指令中，地址码可以部分或全部省略，比如一条空指令就只有操作码而没有地址码。
$ v9 I& j) p: X# T& Z* y+ # ^
% |" F: B5 r J8 Y- h 举个例子吧，某个指令系统的指令长度为32位，操作码长度为8位，地址长度也为8位，且第一条指令是加，第二条指令是减。当它收到一个“00000010000001000000000100000110”的指令时，先取出它的前8位操作码，即00000010，分析得出这是一个减法操作，有3个地址，分别是两个源操作数地址和一个目的地址。于是，CPU就到内存地址00000100处取出被减数，到00000001处取出减数，送到ALU中进行减法运算，然后把结果送到00000110处。, T, V4 o# x' H0 |( E9 V
+ m( D2 h) B* I" E+ z5 o) [! d
这只是一个相当简单化的例子，实际情况要复杂的多。5 \8 m. N% X; F" U" `: ~

* c+ T% N. ^& m# B6 b! F6 m 2、指令的分类与寻址方式
) E7 Q& N K* [2 Y; C7 t/ f( m' i* U) m% J5 `
一般说来，现在的指令系统有以下几种类型的指令：% v: I9 d0 v& N

8 ~, [' I# O- D （1）算术逻辑运算指令
, d( W9 s& g2 @! x
" + Y* ?- C& a/ f 算术逻辑运算指令包括加减乘除等算术运算指令，以及与或非异或等逻辑运算指令。现在的指令系统还加入了一些十进制运算指令以及字符串运算指令等。+ R( J8 z& m4 K& W4 N, Z" Q

; s% F* A2 a0 r, k （2）浮点运算指令) k, R( C! G) W0 U

- K0 j* J, e' W* H2 m: x: J 用于对浮点数进行运算。浮点运算要大大复杂于整数运算，所以CPU中一般还会有专门负责浮点运算的浮点运算单元。现在的浮点指令中一般还加入了向量指令，用于直接对矩阵进行运算，对于现在的多媒体和3D处理很有用。+ E0 $ D. S0 x7 u5 P
" P+ F0 f: K- B8 w+ E# Y
（3）位操作指令
8 K% E- `- X6 r1 g5 W6 ~% B5 e4 i2 p
学过C的人应该都知道C语言中有一组位操作语句，相对应的，指令系统中也有一组位操作指令，如左移一位右移一位等。对于计算机内部以二进制不码表示的数据来说，这种操作是非常简单快捷的。+ H) k. u' w' l9 z
% X8 R) |7 i3 r y, S
（4）其他指令
% @9 T8 O: X" j# j% L6 S. q5 B* a# H8 k3 p2 Z1 3 h) ^& b* N' w
上面三种都是运算型指令，除此之外还有许多非运算的其他指令。这些指令包括：数据传送指令、堆栈操作指令、转移类指令、输入输出指令和一些比较特殊的指令，如特权指令、多处理器控制指令和等待、停机、空操作等指令。
! c5 n' k) t. q7 b9 J/ R$ w, Q+ d/ D5 z# Z3 I0 G5 |
对于指令中的地址码，也会有许多不同的寻址（编址）方式，主要有直接寻址，间接寻址，寄存器寻址，基址寻址，变址寻址等，某些复杂的指令系统会有几十种甚至更多的寻址方式。参考技术B 　　在不少人的心目中，显卡最大的用途可能就只有两点——玩游戏、看电影，除此之外，GPU并没有其他的作用了。但是随着微软IE9的正式发布，不少人突然发现，微软一直提到一个名词：GPU硬件加速，从而也让不少人开始关注GPU硬件加速。那么GPU硬件加速到底是什么？能干些什么呢？下面让我们一起走进GPU硬件加速的世界去看看吧。 GPU硬件加速就是显卡辅助CPU进行图形运算

　　要说起GPU硬件加速，我们首先要说说GPU这个概念。GPU是1999年，NVIDIA公司在发布GeForce256时提出的，它可以减少对CPU的依赖，并且进行部分原本属于CPU的工作，从而解放CPU（你也可以理解成抢夺CPU的工作）。也正是因为GPU的诞生，电脑中最重要的硬件开始从CPU一家独大向着CPU和GPU并存的局面转变。
　　下面我们来说说硬件加速，简而言之，硬件加速就是利用硬件模块来替代软件算法以充分利用硬件所固有的快速特性。那么稍加变化就可以知道，GPU硬件加速就是指利用GPU强大的硬件图形处理能力，来代替CPU原本使用的软件模拟图形处理算法，从而充分利用GPU的特长为系统服务。
　　小贴士：GPU硬件加速时系统如何运行呢？
　　现在我们有两个处理器、CPU和GPU，它们之间通过系统总线交换数据。
　　第一步：CPU从文件系统里读出原始数据，分离出图形数据，然后放在系统内存中，这个时候GPU在发呆。
　　第二步：CPU准备把图形数据交给GPU，这时系统总线上开始忙了，数据将从系统内存拷贝到GPU的显存里。
　　第三步：CPU要求GPU开始数据处理，现在换CPU发呆了，而GPU开始忙碌工作。当然CPU还是会定期询问一下GPU忙得怎么样了。
　　第四步：GPU开始用自己的工作间（GPU核心电路）处理数据，处理后的数据还是放在显存里面，CPU还在继续发呆。
　　第五步：图形数据处理完成后，GPU告诉CPU，我忙完了，准备输出或者已经输出。于是CPU开始接手，读出下一段数据，并告诉GPU可以歇会了，然后返回第一步。
　　GPU硬件加速可以让你的系统变得更快
　　既然GPU硬件加速是利用GPU的特长为系统服务，那么好处是什么呢？这里用时下非常流行的骑游运动做个比方，正常情况下你在骑行的时候只有腿部在进行蹬踩运动（CPU正常运算），而当你遇到诸如顺风、下坡、被人推行等情况时，速度就会加快，并且腿部感觉非常省力（GPU参与运算）。
　　那么换到电脑上会是什么情况呢？在以前的很多应用中，CPU是负责所有运算的，而GPU则只是负责最后的显示工作，因此一旦出现处理复杂图形数据的时候，很多使用性能较弱的CPU的电脑系统就开始缓慢无比，而使用性能较强的CPU的电脑系统也会看到CPU资源被大量的占用。
　　而在GPU开始参与运算之后，原本会消耗CPU大量宝贵资源的图形数据处理部分就全部交给GPU这个专业人士进行处理了，从而降低了CPU的负担，并且利用自身的特长，使得图形数据处理的效率更快，从而提升系统性能。
　　既然GPU硬件加速有这样的好处，那么我们就一起来看看它在日常生活中到底能为我们带来什么好处吧。参考技术C CPU处理数据后，会通过前端总线将信息传给GPU，GPU再生成图像（这就是为什么前端总线和显卡接口速度越快，系统性能越强）CPU主要负责逻辑运算，GPU则负责渲染。参考技术D 光影并不是在cpu计算，而是在gpu计算的

以上是关于GPU和CPU之间是如何协调数据处理的的主要内容，如果未能解决你的问题，请参考以下文章

GPU 与CPU的作用协调，工作流程GPU整合到CPU得好处

渲染流水线中CPU和GPU之间的通信

通俗理解 CPU && GPU

使用 OpenGL 渲染时 CPU 和 GPU 之间的数据丢失

Shader 入门笔记 CPU和GPU之间的通信

是否可以在 GPU 和 CPU 之间拆分 Cuda 作业？