干货自动驾驶芯片：GPU的现在和ASIC的未来

Posted 2021-04-27 智享汽车圈

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了干货自动驾驶芯片：GPU的现在和ASIC的未来相关的知识，希望对你有一定的参考价值。

ECU（Electronic Control Unit）是电子控制单元，也称“行车电脑”,是汽车专用微机控制器。一般 ECU 由 CPU、存储器（ROM、RAM）、输入/ 输出接口（I/O）、模数转换器（A/D）以及整形、驱动等大规模集成电路组成。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

ECU 的工作过程就是 CPU 接收到各个传感器的信号后转化为数据，并由 Program区域的程序对 Data 区域的数据图表调用来进行数据处理，从而得出具体驱动数据，并通过 CPU针脚传送到相关驱动芯片，驱动芯片再通过相应的周边电路产生驱动信号，用来驱动驱动器。即传感器信号——传感器数据——驱动数据——驱动信号这样一个完整工作流程。

2.2 分布式架构向多域控制器发展

汽车电子发展的初期阶段，ECU 主要是用于控制发动机工作，只有汽车发动机的排气管（氧传感器）、气缸（爆震传感器）、水温传感器等核心部件才会放置传感器，由于传感器数量较少，为保证传感器-ECU-控制器回路的稳定性， ECU 与传感器一一对应的分布式架构是汽车电子的典型模式。

后来随着车辆的电子化程度逐渐提高，ECU 占领了整个汽车，从防抱死制动系统、4 轮驱动系统、电控自动变速器、主动悬架系统、安全气囊系统，到现在逐渐延伸到了车身各类安全、网络、娱乐、传感控制系统等。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

随着汽车电子化的发展，车载传感器数量越来越多，传感器与 ECU 一一对应使得车辆整体性下降，线路复杂性也急剧增加，此时 DCU（域控制器）和MDC（多域控制器）等更强大的中心化架构逐步替代了分布式架构。

域控制器（Domain Control Unit）的概念最早是由以博世，大陆，德尔福为首的 Tier1 提出，是为了解决信息安全，以及 ECU 瓶颈的问题。根据汽车电子部件功能将整车划分为动力总成，车辆安全，车身电子，智能座舱和智能驾驶等几个域，利用处理能力更强的多核 CPU/GPU芯片相对集中的去控制每个域，以取代目前分布式汽车电子电气架构。

而进入自动驾驶时代，控制器需要接受、分析、处理的信号大量且复杂，原有的一个功能对应一个 ECU 的分布式计算架构或者单一分模块的域控制器已经无法适应需求，比如摄像头、毫米波雷达、激光雷达乃至 GPS 和轮速传感器的数据都要在一个计算中心内进行处理以保证输出结果的对整车自动驾驶最优。

因此，自动驾驶车辆的各种数据聚集、融合处理，从而为自动驾驶的路径规划和驾驶决策提供支持的多域控制器将会是发展的趋势，奥迪与德尔福共同开发的 zFAS，即是通过一块 ECU，能够接入不同传感器的信号并进行对信号进行分析和处理，最终发出控制命令。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

3车载芯片的现在―以GPU为核心的智能辅助驾驶芯片

人工智能的发展也带动了汽车智能化发展，过去的以 CPU 为核心的处理器越来越难以满足处理视频、图片等非结构化数据的需求，同时处理器也需要整合雷达、视频等多路数据，这些都对车载处理器的并行计算效率提出更高要求，而 GPU 同时处理大量简单计算任务的特性在自动驾驶领域取代CPU成为了主流方案。

3.1 GPU Vs. CPU

CPU 的核心数量只有几个（不超过两位数），每个核都有足够大的缓存和足够多的数字和逻辑运算单元，并辅助很多复杂的计算分支。而 GPU 的运算核心数量则可以多达上百个（流处理器），每个核拥有的缓存大小相对小，数字逻辑运算单元也少而简单。

CPU和 GPU 最大的区别是设计结构及不同结构形成的不同功能。CPU的逻辑控制功能强，可以进行复杂的逻辑运算，并且延时低，可以高效处理复杂的运算任务。而 GPU逻辑控制和缓存较少，使得每单个运算单元执行的逻辑运算复杂程度有限，但并列大量的计算单元，可以同时进行大量较简单的运算任务。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

3.2 GPU 占据现阶段自动驾驶芯片主导地位

相比于消费电子产品的芯片，车载的智能驾驶芯片对性能和寿命要求都比较高，主要体现在以下几方面：

1、耗电每瓦提供的性能；

2、生态系统的构建，如用户群、易用性等；

3、满足车规级寿命要求，至少 1 万小时稳定使用。

目前无论是尚未商业化生产的自动驾驶 AI 芯片还是已经可以量产使用的辅助驾驶芯片，由于自动驾驶算法还在快速更新迭代，对云端“训练”部分提出很高要求，既需要大规模的并行计算，又需要大数据的多线程计算，因此以GPU+FPGA 解决方案为核心；在终端的“推理”部分，核心需求是大量并行计算，从而以 GPU为核心。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

3.3 相关公司

3.3.1 NVIDIA

NVIDIA 在自动驾驶领域的成就正是得益于他们在 GPU 领域内的深耕，NVIDIA GPU 专为并行计算而设计，适合深度学习任务，并且能够处理在深度学习中普遍存在的向量和矩阵操作。相对于 Mobileye 专注于视觉处理，NVIDIA 的方案重点在于融合不同传感器。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

2016 年，英伟达在 Drive PX 2 平台上推出了三款产品，分别是配备单 GPU 和单摄像头及雷达输入端口的 Drive PX2 Autocruise（自动巡航）芯片（下图左上）、配备双 GPU 及多个摄像头及雷达输入端口的 Drive PX2 AutoChauffeur（自动私人司机）芯片（右上）、配备多个 GPU 及多个摄像头及雷达输入端口的 Drive PX2 Fully Autonomous Driving（全自动驾驶）

芯片（下方）。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

以目前的销售情况，Drive PX 2 搭载上一代 Pascal 架构 GPU 已经实现量产，并且已经搭载在 Tesla 的量产车型 Model S 以及 Model X 上。目前 PX 2 仍然是 NVIDIA 自动驾驶平台出货的主力，Tesla，Audi 和 ZF 等对外公布 Drive PX 2 应用在量产车上。

Xavier 是 Drive PX 2 的进化版本，搭配了最新一代的 Volta 架构 GPU, 相较于 Drive PX 2 性能将提升近一倍，2017 年年底量产。由于多家主机厂 L3 级别以上自动驾驶量产车的计划在 2020 年左右，而 Xavier 的量产计划将能和自动驾驶车的研发周期相互配合（一般 3 年左右），因此 Xavier 的合作都是有量产车落地计划的。

而对于较早与 NVIDIA 达成合作的车厂来说，他们在小批量测试、量产的优先级别以及可定制化空间等方面都能获得一定的优势。

图表13：NVIDIA DRIVE Pegasus AI计算平台

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

目前，L4 及以上的市场基本上被 NVIDIA 垄断，CEO 黄仁勋称全球有 300 余家自动驾驶研发机构使用 Drive PX2。Drive PX 2 单价为 1.6 万美金，功耗达 425 瓦，但目前没有达到车规，按功耗和成本看，只能小规模测试阶段使用。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

3.3.2 四维图新

国内地图行业龙头，向 ADAS 和自动驾驶进军。公司成立于 2002 年，是国内首家获导航地图制作资质的企业（目前仅 13 家），为领先的数字地图内容、车联网与动态交通信息服务、基于位置的大数据垂直应用服务的提供商之一。其拳头业务——地图业务，以国内 60%的份额稳居垄断地位。 2017 年以来，公司收购杰发科技、入股中寰卫星与禾多科技，“高精度地图+芯片+算法+软件”的自动驾驶产业链全方位布局雏形已现。

高精度地图：代表国内最高水平。公司以地图起家，目前国内高精度地图仅两家玩家（另一家为高德），公司深度绑定获得宝马、大众、奔驰、通用、沃尔沃、福特、上汽、丰田、日产、现代、标致等主流车企发展，占绝对优势。2017 年公司实现支持 L3 级别（至少 20 个城市）的高精度地图，计划于 2019 年覆盖所有城市，并为 L4 的推出做准备。公司地图编译能力亮眼，全球首位提供 NDS 地图从生产到编译环节。此外，公司在荷兰、美国硅谷、新加坡等地设立研发中心和分支机构，合作伙伴涵盖国际主流车厂、新一代整车企业以及腾讯、滴滴、搜狗、华为等国内知名企业。

芯片：收购杰发科技布局汽车芯片。杰发科技（2017 年 3 月完成收购）脱胎于联发科，主攻车载信息娱乐系统芯片。现阶段在国内后装市场市占率超 70%，前装超 30%（主要为吉利、丰田等车企），其车规级 IVI 芯片被多家国际主流零部件厂商采用，并计划推出 AMP、MCU 及 TPMS（胎压监测）芯片等新一代产品。公司通过收购杰发科技，具备了为车厂提供高性能汽车电子芯片的能力，打通从软件到硬件的关键性关卡，并与蔚来、威马、爱驰亿维等造车新势力公司达成了合作。

该芯片采用 64 位 A53四核架构，内置硬件图像加速引擎，支持双路高清视频输出，和四路高清视频输入，能同时支持高级车载影音娱乐系统全部功能和丰富的 ADAS 功能。功能包括：360°全景泊车系统、车道偏移警示系统 LDW、前方碰撞警示系统 FCW、行人碰撞警示系统 PCW、交通标志识别系统 TSR、车辆盲区侦测系统 BSD、驾驶员疲劳探测系统 DFM 和后方碰撞预警系统 RCW 等。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

3.3.3 全志科技

在今年 5 月的 CES Asia，全志科技发布首款车规级处理器 T7，同时发布基于 T7 的多种智能座舱产品形态。T7 是数字座舱车规（AEC-Q100）平台型处理器，支持 android、Linux、QNX系统，集成多路高清影像输入和输出，完美支持高清多媒体处理，内置的 EVE 视觉处理单元可提升辅助驾驶运算效率。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

该款芯片虽然是首款通过车规的国产中控主机芯片，但还处于起步阶段，根据正常汽车电子芯片的生命周期，要规模应用至少需要两年时间，而等到形成较多的用户和良好的生态还需很多资源投入以及时间的积累。因此国产车载芯片不论在自动驾驶领域还是中控或辅助驾驶领域，想要真正形成量产与国外老牌巨头竞争，都还需要大量人力、资本和时间。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

4车载芯片的未来―以ASIC为核心的自动驾驶芯片

4.1 ASIC vs GPU+FPGA

GPU适用于单一指令的并行计算，而 FPGA 与之相反，适用于多指令，单数据流，常用于云端的“训练”阶段。此外与 GPU对比，FPGA没有存取功能，因此速度更快，功耗低，但同时运算量不大。结合两者优势，形成GPU+FPGA 的解决方案。

FPGA 和 ASIC 的区别主要在是否可以编程。FPGA 客户可根据需求编程，改变用途，但量产成本较高，适用于应用场景较多的企业、军事等用户；而 ASIC 已经制作完成并且只搭载一种算法和形成一种用途，首次“开模”成本高，但量产成本低，适用于场景单一的消费电子、“挖矿”等客户。目前自动驾驶算法仍在快速更迭和进化，因此大多自动驾驶芯片使用GPU+FPGA 的解决方案。未来算法稳定后，ASIC 将成为主流。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

计算能耗比，ASIC > FPGA > GPU > CPU，究其原因，ASIC 和 FPGA 更接近底层 IO，同时 FPGA有冗余晶体管和连线用于编程，而 ASIC 是固定算法最优化设计，因此 ASIC 能耗比最高。相比前两者，GPU 和 CPU 屏蔽底层 IO，降低了数据的迁移和运算效率，能耗比较高。同时 GPU 的逻辑和缓存功能简单，以并行计算为主，因此 GPU能耗比又高于 CPU。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

4.2 ASIC 是未来自动驾驶芯片的核心和趋势

结合 ASIC 的优势，我们认为长远看自动驾驶的 AI 芯片会以 ASIC 为解决方案，主要有以下几个原因：

1、由于处理的传感器信息需要大量冗余，自动驾驶对终端算力要求极高，并且车速越快，对计算能力要求越高；

2、自动驾驶对终端计算的实时性要求极高。任何超出一定范围的延迟，都有可能造成事故，因此终端会负责自动驾驶的核心计算和决策功能；

3、对能效要求高，否则降低车辆续航，影响驾驶体验。高能耗同时带来的热量也会降低系统稳定性。例如下一代支持 L4 的 NVIDIA Drive Pegasus 功耗为 500 瓦，只能应用于小规模的测试车；

4、高可靠性。真正满足车规的自动驾驶芯片需要在严寒酷暑、刮风下雨或长时间运行等恶劣条件下，都有稳定的计算表现。

综上 ASIC 专用芯片几乎是自动驾驶量产芯片唯一的解决方案。由于这种芯片仅支持单一算法，对芯片设计者在算法、IC 设计上都提出很高要求。

以上并非下定论目前 ASIC 为核心的芯片一定比 GPU+FPGA 的芯片强，由于目前自动驾驶算法还在快速迭代和升级过程中，过早以固有算法生产ASIC 芯片长期来看不一定是最优选择。

4.3 相关公司

4.3.1 Mobileye

Intel 在 ADAS 处理器上的布局已经完善，包括 Mobileye 的 ADAS 视觉处理，利用 Altera 的 FPGA 处理，以及英特尔自身的至强等型号的处理器，可以形成自动驾驶整个硬件超级中央控制的解决方案。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

Mobileye 具有自主研发设计的芯片 EyeQ 系列，由意法半导体公司生产供应。现在已经量产的芯片型号有 EyeQ1 至 EyeQ4，EyeQ5 正在开发进行中，计划 2020 年面世，对标英伟达 Drive PX Xavier，并透露 EyeQ5 的计算性能达到了 24 TOPS，功耗为 10 瓦，芯片节能效率是 Drive Xavier 的2.4 倍。

英特尔自动驾驶系统将采用摄像头为先的方法设计，搭载两块EyeQ5 系统芯片、一个英特尔凌动 C3xx4 处理器以及 Mobileye 软件，大规模应用于可扩展的 L4/L5 自动驾驶汽车。该系列已被奥迪、宝马、菲亚特、福特、通用等多家汽车制造商使用。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

从硬件架构来看，该芯片包括了一组工业级四核 MIPS 处理器，以支持多线程技术能更好的进行数据的控制和管理（下图左上）。多个专用的向量微码处理器（VMP），用来应对 ADAS 相关的图像处理任务（如：缩放和预处理、翘曲、跟踪、车道标记检测、道路几何检测、滤波和直方图等，下图右上）。一颗军工级 MIPS Warrior CPU 位于次级传输管理中心，用于处理片内片外的通用数据（下图左中）。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

此外通过行业访谈调研等途径了解到，Mobileye 在 L1-L3 智能驾驶领域具有极大的话语权，对 Tire1 和 OEM 非常强势，其算法和芯片绑定，不允许更改。

4.3.2 寒武纪

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

5 月 3 日，寒武纪科技在 2018 产品发布会上发布了多个 IP 产品——采用7nm 工艺的终端芯片 Cambricon 1M、云端智能芯片 MLU100 等。

其中寒武纪 1M芯片是公司第三代 IP产品，在 TSMC7nm工艺下 8 位运算的效能比达 5Tops/w（每瓦 5 万亿次运算），同时提供 2Tops、4Tops、 8Tops 三种尺寸的处理器内核，以满足不同需求。1M 还将支持 CNN、 RNN、SVM、k-NN 等多种深度学习模型与机器学习算法的加速，能够完成视觉、语音、自然语言处理等任务。通过灵活配置 1M 处理器，可以实现多线和复杂自动驾驶任务的资源最大化利用。它还支持终端的训练，以此避免敏感数据的传输和实现更快的响应。

寒武纪首款云端智能芯片 Cambricon MLU100 同期发布，同时公布了在 R-CNN算法下 MLU100 与英伟达 Tesla V100（2017）和英伟达 Tesla P4

（2016）的对比，从参数上看，主要对标 Tesla P4。

最后说明芯片从设计到落地应用面临的潜在风险：

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

4.3.3 地平线

2017 年地平线发布了新一代自动驾驶芯片“征程”和配套软件平台方案 “雨果”，同时还发布了应用于智能摄像头的“旭日”处理器。“征程”是一款专用 AI 芯片，采用地平线的第一代 BPU 架构，可实时处理 1080p@30 视频，每帧中可同时对 200 个目标进行检测、跟踪、识别，典型功耗 1.5W，每帧延时小于 30ms。据地平线CEO 余凯介绍，地平线的芯片更聚焦在针对不同场景下的具体应用，相比于英伟达的方案，在功耗上低一个数量级，价格也会有更大的竞争力。

2018 年亚洲 CES，地平线宣布推出从 L2 到 L4 级别全系列的自动驾驶计算平台。

地平线星云，基于征程 1.0 芯片，能够以车规级标准满足 L1 和 L2 级别的自动驾驶的需求，能同时对行人、机动车、非机动车、车道线、交通标志牌、红绿灯等多类目标进行精准的实时监测与识别；并可满足车载设备严苛的环境要求，以及复杂环境下的视觉感知需求，支持L2 级别 ADAS 功能。

地平线 Matrix 1.0，内置地平线征程 2.0 处理器架构，最大化嵌入式 AI 计算性能，是面向 L3／L4 的自动驾驶解决方案，可满足自动驾驶场景下高性能和低功耗的需求。依托地平线公司自主研发的工具链，开发者和研究人员可以基于 Matrix 平台部署神经网络模型，实现开发、验证、优化和部署。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

4.3.4 百度“昆仑”

7 月 4 日百度 AI 开发者大会上，李彦宏发布了由百度自主研发的中国首款云端全功能 AI 芯片——“昆仑”。“昆仑”基于百度 8 年的 AI 加速器经验的研发，预计将于明年流片。

“昆仑”采用 14nm 三星工艺，是业内设计算力最高的 AI 芯片（100+瓦功耗下提供 260Tops 性能）；512GB/s 内存带宽，由几万个小核心构成。

“昆仑”可高效地同时满足训练和推断的需求，除了常用深度学习算法等云端需求，还能适配诸如自然语言处理，大规模语音识别，自动驾驶，大规模推荐等具体终端场景的计算需求。此外可以支持 paddle 等多个深度学习框架，编程灵活度高。

同时也有媒体对该产品提出疑义，主要有以下两点：

1、算力一般采用的是基于浮点计算的 TFLOPS，性能从倍精度、单精度到半精度，例如寒武纪公布算力跨度从 16 TFLOPS 到 166 TFLOPS。昆仑仅提供单一精度数据，且只公开最大整数计算能力（TOPS），与其他芯片的可比性较低；

2、昆仑芯片的 TOPS 参数比 NVIDIA 的 V100 高，但并未公布芯片的规模，只说明了整合了数万个小核心，数据可比性也不高。

4.3.5 Google TPU

Google TPU于 2016 年在 Google I / O 上宣布，当时该公司表示 TPU已在其数据中心内使用了一年以上。该芯片专为 Google 的 Tensor Flow（一个符号数学库，用于神经网络等机器学习应用）框架而设计。

Google TPU 是专用的，并不面向市场，谷歌仅表示“将允许其他公司通过其云计算服务购买这些芯片。”今年 2 月，谷歌在其云平台博客上宣布的 TPU 服务开放价格大约为每 cloud TPU （180TFLOPS 和 64 GB 内存）每小时 6.50 美元。Google 使用 TPU开发围棋系统 AlphaGo 和 Alpha Zero 以及进行 Google 街景视频文字处理等，能够在不到五天的时间内找到街景数据库中的所有文字，此外 TPU也用于提供 Google 搜索结果的排序。

TPU与同期的 CPU和 GPU相比，可以提供 15-30 倍的性能提升，以及 30-80 倍的效率（性能/瓦特）提升。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

4.3.6 Xilinx & 深鉴科技

Xilinx（赛灵思）是 FPGA 的先行者和领导者，1984 年，赛灵思发明了现场可编程门阵列 FPGA，作为半定制化的 ASIC，顺应了计算机需求更专业的趋势。FPGA 的好处是可编程以及带来的灵活配置，同时还可以提高整体系统性能，比单独开发芯片整个开发周期大为缩短，但缺点是价格、尺寸等因素。

在汽车 ADAS 和自动驾驶解决方案上，赛灵思的 FPGA 和 SOC 产品家族衍生出三个模块：

自动驾驶中央控制器 Zynq UltraScale+ MPSoC

前置摄像头 Zynq-7000 / Zynq UltraScale+ MPSoC

多传感器融合系统 Zynq UltraScale+ MPSoC

【干货】自动驾驶芯片：GPU的现在和ASIC的未来 ▲赛灵思Zynq芯片

Zynq 采用单一芯片即可完成 ADAS 解决方案的开发，SOC 平台大幅提升了性能，便于各种捆绑式应用，能实现不同产品系列间的可扩展性，可帮助系统厂商加快在环绕视觉、3D 环绕视觉、后视摄像头、动态校准、行人检测、后视车道偏离警告和盲区检测等 ADAS 应用的开发时间。并且可以让 OEM和 Tier1 在平台上添加自己的 IP 以及赛灵思自己的扩展。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

▲赛灵思多传感器融合系统

深鉴科技成立于 2016 年，其创始团队有着深厚的清华背景，专注于神经网络剪枝、深度压缩技术及系统级优化。2018 年 7 月 17 日，赛灵思宣布收购深鉴科技。自成立以来，深鉴科技就一直基于赛灵思的技术平台开发机器学习解决方案，推出的两个用于深度学习处理器的底层架构—亚里士多德架构和笛卡尔架构的 DPU 产品，都是基于赛灵思 FPGA 器件。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

▲亚里士多德架构

【干货】自动驾驶芯片：GPU的现在和ASIC的未来

▲笛卡尔架构

对于赛灵思来说，看好深鉴科技基于机器学习的软件、算法，以及面向云侧和端侧硬件架构的优势；对于深鉴科技，后期发展高昂的研发费用、高成本的芯片设计、流片、试制、认证、投片量产，投靠赛灵思能够降低随之而来的风险，进入芯片战争的持久战。

2018 年 6 月，深鉴科技宣布进军自动驾驶领域，自主研发的 ADAS辅助驾驶系统——DPhiAuto，目前已获得日本与欧洲一线车企厂商和 Tier 1 的订单，即将实现量产。

DPhiAuto，基于 FPGA，是面向高级辅助驾驶和自动驾驶的嵌入式 AI计算平台，可提供车辆检测、行人检测、车道线检测、语义分割、交通标志识别、可行驶区域检测等深度学习算法功能，是一套针对计算机视觉环境感知的软硬件协同产品。功耗方面，可以在 10-20W 的功耗范围内，实现等效性能，能效比指标高于目前主流的 CPU、GPU方案。

【干货】自动驾驶芯片：GPU的现在和ASIC的未来