深度神经网络加速器体系结构概述

Posted 2021-04-26 知领

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了深度神经网络加速器体系结构概述相关的知识，希望对你有一定的参考价值。

点蓝色字关注“知领”

编者按

一般来说，现代机器学习算法可分为两类：人工神经网络（ANN）和脉冲神经网络（SNN）。机器学习（ML）方法已成功应用于解决学术界和工业界的许多问题，尽管大数据应用的高速增长为ML的发展提供动力，但它也给传统计算机系统带来了数据处理速度和可扩展性方面的严峻挑战。

中国工程院院刊《Engineering》刊发的《深度神经网络加速器体系结构概述》一文，主要关注人工神经网络，特别总结了用于深度神经网络的加速器设计（即DNN加速器）的最新进展，从计算单元、数据流优化、网络模型等方面讨论支持DNN执行的各种体系结构。文章在介绍机器学习和深度神经网络的基础上，分别介绍了几种代表性的DNN片上加速器和独立加速器，描述了各种基于新兴内存技术的DNN加速器，简要总结了新兴应用程序的DNN加速器。另外，还展望了AI芯片设计的未来趋势。

深度神经网络加速器体系结构概述

视频介绍丨深度神经网络加速器体系结构概述

视频来源：陈怡然

经典哲学将人类思维过程描述为对符号的机械操纵。长期以来，人类一直试图创造出具有意识智能的人造物件，这是人工智能（AI）的最初发芽。在近几十年中，AI经历了几次起伏。最近，由于可供使用的大数据和计算能力的快速增长，人工智能重新获得了巨大的关注和投资。机器学习（ML）方法已成功应用于解决学术界和工业界中的许多问题。

尽管大数据应用的高速增长为ML的发展提供动力，但它也给传统计算机系统带来了数据处理速度和可扩展性方面的严峻挑战。具体而言，传统的冯·诺依曼计算机具有单独的处理和存储部件。处理器与片外存储器之间频繁的数据移动限制了系统性能和能效，而AI应用程序中数据量的飙升进一步加剧了这种情况。专为AI应用程序设计的计算平台已经从对冯·诺依曼平台的补充发展到必备的独立技术解决方案。这些平台属于更大的类别，被称为“专有域计算”，专注于针对AI的特定定制。通过克服众所周知的“内存墙（Memory Wall）”和“电源墙（Power Wall）”的挑战，已经实现了数量级能效和性能的提高。最近的特定于AI的计算系统（即AI加速器）通常由大量高度并行的计算和存储单元构成。这些单元以二维方式组织，以支持神经网络（NN）中常见的矩阵向量乘法。片上网络（NoC），高带宽存储器（HBM）和数据重用等被用于进一步优化这些加速器中的数据流。

除了传统的CMOS设计之外，最近在AI加速器设计中还探索了新兴的非易失性存储器的应用，例如金属氧化物阻性随机存取存储器（ReRAM）等。这些新兴的存储器具有高存储密度和快速访问的特点，并且具有实现存内计算的潜力。具体而言，ReRAM阵列不仅可以存储神经网络，而且还能够以模拟方式执行原位（in-situ）矩阵矢量乘法。与最先进的CMOS设计相比，基于ReRAM的AI加速器由于模拟计算的低功耗特性，可以实现3-4个数量级的更高计算效率。另一方面，由于机器学习算法对噪声和错误表现出极大的抵抗力，模拟运算的噪声在很大程度上可以被机器学习算法所容忍。

《深度神经网络加速器结构研究综述》一文特别总结了用于深度神经网络（DNN）的加速器设计的最新进展，从计算单元、数据流优化、网络模型等方面讨论支持DNN执行的各种体系结构，总结支持小规模神经网络的片上加速器设计。而后，为支持大规模神经网络处理要求高性能和高能效的独立加速器被提出，以来自学术界的DianNao系列和来自工业界的TPU作为例子加以介绍，同时，也涉及目前广为使用的数据流（Data Flow）技术。

由于新兴存储器技术使得存内计算（Processing in Memory）变为可能，文章介绍了基于阻性存储器和混合存储立方体（HMC）这两种新兴存储器的加速器架构。稀疏神经网络、低精度神经网络、生成对抗网络等新兴应用为加速器架构设计提出了新的要求，也介绍了针对新兴应用的加速器架构。

最后，文章讨论了DNN训练加速器、基于ReRAM的PIM加速器以及边缘（Edge）DNN加速器这三种可能的未来加速器的研究趋势。

图1 深度神经网络加速器结构研究综述

改编丨宋凌皓

注：本文内容呈现形式略有调整，若需可查看原文。

改编原文：

Yiran Chen, Yuan Xie, Linghao Song, Fan Chen, Tianqi Tang.A Survey of Accelerator Architectures for Deep Neural Networks[J].Engineering,2020,6(3):264-274.

来源：中国工程院院刊