[GPU硬件架构]NVIDIA Ampere 架构：第三代 Tensor Core

Posted 2023-03-23

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[GPU硬件架构]NVIDIA Ampere 架构：第三代 Tensor Core相关的知识，希望对你有一定的参考价值。

参考技术A 摘录自 NVIDIA Ampere Architecture In-Depth 一文中关于 Tensor Core 的部分

NVIDIA A100 是基于Ampere 架构推出的一款GPU芯片，计算能力8.0。Tensor Core 是 NVIDIA 的先进技术，可实现混合精度计算，并能根据精度的降低动态调整算力，在保持准确性的同时提高吞吐量。

GA100 GPU 的完整实现包括以下单元：

GA100 GPU 的 A100 Tensor Core GPU 实现包括以下单元：

基于 NVIDIA Ampere 架构的 A100 Tensor Core GPU 中的新 SM 大大提高了性能，在 Volta 和 Turing SM 架构的基础之上，增加了许多新功能。

如上图所示，TP32提供了与FP32相同的表示范围（与 FP32 相同，具有8 位指数），但与FP16相同的表示精度（与 FP16 相同，具有10 位尾数）。TF32 Tensor Core 读取 FP32 数据作为输入并在内部转换为TF32数据，最终产生FP32 输出。因此在A100中可以使用TF32加速FP32的张量计算，并同时支持FP32数据的输入和输出。其运行速度比 V100 FP32 FMA 操作快 10 倍，或者在稀疏时快 20 倍。

以上是关于[GPU硬件架构]NVIDIA Ampere 架构：第三代 Tensor Core的主要内容，如果未能解决你的问题，请参考以下文章

RTX 3080 Laptop GPU高能登场！雷神P1轻薄旗舰游戏本评测

NVIDIA显卡支持CUDA，啥是CUDA

NVIDIA GPU Pascal架构简述

NVIDIA GPU卡有几种架构？

NVIDIA GPU Volta架构简述

计算机组成原理 — GPU — 体系结构