GPGPU开发几个工具包

Posted 吴建明

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GPGPU开发几个工具包相关的知识,希望对你有一定的参考价值。

GPGPU几个开发工具包
独家访问数百种免费软件和性能分析工具,这些工具涵盖从 AI 和 HPC 到自动驾驶汽车、机器人、仿真等不同行业和用例。
英伟达 cuDNN
NVIDIA® CUDA® 深度神经网络库 (cuDNN) 是一个用于深度神经网络的 GPU 加速原语库。cuDNN 为标准例程提供了高度调优的实现,例如前向和后向卷积、池化、规范化和激活层。

 英伟达 cuDNN

NVIDIA CUDA® 深度神经网络库 (cuDNN) 是一个用于深度神经网络的 GPU 加速原语库。cuDNN 为标准例程(如前向和后向卷积、池化、规范化和激活层)提供了高度调优的实现。
全球的深度学习研究人员和框架开发人员都依靠 cuDNN 实现高性能 GPU 加速。它使他们能够专注于训练神经网络和开发软件应用程序,而不是花时间在低级 GPU 性能调优上。cuDNN加速广泛使用的深度学习框架,包括Caffe2ChainerKerasMATLABMxNetPaddlePaddlePyTorchTensorFlow。要访问已将 cuDNN 集成到框架中的 NVIDIA 优化深度学习框架容器,请访问 NVIDIA GPU CLOUD 以了解更多信息并开始使用。
cuDNN 主要特点
  • 适用于所有流行卷积的张量核心加速,包括 2D、3D、分组、深度可分离以及使用 NHWC 和 NCHW 输入和输出进行扩张
  • 针对计算机视觉和语音模型优化的内核,包括 ResNet、ResNext、EfficientNet、EfficientDet、SSD、MaskRCNN、Unet、VNet、BERT、GPT-2、Tacotron2 和 WaveGlow
  • 支持 FP32、FP16、BF16 和 TF32 浮点格式以及 INT8 和 UINT8 整数格式
  • 支持将内存受限操作(如逐点)和归约与数学限制操作(如卷积和矩阵)融合
  • 支持具有最新 NVIDIA 数据中心和移动 GPU 的 Windows 和 Linux。
英伟达张量RT
NVIDIA TensorRT™ 是一个用于高性能深度学习推理的 SDK。它包括深度学习推理优化器和运行时,可为深度学习推理应用程序提供低延迟和高吞吐量。

 英伟达张量RT

英伟达张量RT®™,一个用于高性能深度学习推理的 SDK,包括一个深度学习推理优化器和运行时,可为推理应用程序提供低延迟和高吞吐量。

 NVIDIA TensorRT 优势

 世界领先的推理性能

TensorRT 是 NVIDIA 在 MLPerf 推理行业标准基准测试中赢得所有性能测试的幕后推手。它还加速了计算机视觉、自动语音识别、自然语言理解 (BERT)、文本到语音转换和推荐系统中数据中心和边缘的每个工作负载。
英伟达JetPack SDK 

 NVIDIA JetPack SDK 是用于构建端到端加速 AI 应用程序的最全面的解决方案。JetPack SDK 支持所有 Jetson 模块和开发人员套件。

NVIDIA DeepStream SDK
DeepStream 的多平台支持为您提供了一种更快、更简单的方式来开发视觉 AI 应用程序和服务。您甚至可以通过单击按钮在本地、边缘和云中部署它们。
什么是 NVIDIA DeepStream?
全球有数十亿个摄像头和传感器,捕获大量数据可用于生成业务洞察、释放流程效率和改善收入流。无论是在交通十字路口减少车辆拥堵,在医院进行健康和安全监控,调查零售通道以提高客户满意度,还是在制造工厂检测组件缺陷,每个应用都需要可靠、实时的智能视频分析 (IVA)。NVIDIA 的 DeepStream SDK 是一个基于 GStreamer 的完整流分析工具包,用于基于 AI 的多传感器处理、视频、音频和图像理解。它是构建 IVA 应用和服务的视觉 AI 开发人员、软件合作伙伴、初创公司和 OEM 的理想选择。开发人员现在可以创建流处理管道,其中包含神经网络和其他复杂的处理任务,例如跟踪、视频编码/解码和视频渲染。DeepStream 管道支持对视频、图像和传感器数据进行实时分析。

 DeepStream 也是 NVIDIA Metropolis 不可或缺的一部分,NVIDIA Metropolis 构建端到端服务和解决方案的平台,可将像素和传感器数据转换为可操作的见解。

主要优势
强大而灵活的软件开发工具包
DeepStream SDK 适用于各行各业的广泛用例。
多种编程选项
使用 C/C++、Python 或 Graph Composer 简单直观的 UI 创建功能强大的视觉 AI 应用程序。
实时洞察
了解边缘丰富的多模态实时传感器数据。
托管 AI 服务
在云原生容器中部署 AI 服务,并使用 Kubernetes 对其进行编排。
降低总体拥有成本
通过使用 TAO 工具包训练、调整和优化模型以及使用 DeepStream 部署模型来提高流密度。
独特的能力
享受从边缘到云的无缝开发
开发人员可以使用 DeepStream 为基于 AI 的视频、音频和图像分析构建无缝流管线。它附带 30+ 个硬件加速插件和扩展,以优化预/后处理、推理、多对象跟踪、消息代理等。DeepStream还提供了一些世界上性能最好的实时多目标跟踪器。
DeepStream是为开发人员和企业构建的,为流行的对象检测和分割模型(如最先进的SSD,YOLO,FasterRCNN和MaskRCNN)提供广泛的AI模型支持。您还可以集成自定义函数和库。
DeepStream 为不同的插件引入了新的 REST-API,让您创建灵活的应用程序,这些应用程序可以部署为 SaaS,同时通过直观的界面进行控制。这意味着现在可以使用简单的界面(如网页)添加/删除流并修改“感兴趣区域”。

 

 获取云原生

云原生技术的使用为您提供了快速产品开发和持续产品改进所需的灵活性和敏捷性。组织现在能够构建具有弹性和可管理的应用程序,从而加快应用程序的部署。

开发人员可以使用 DeepStream 容器生成器工具,使用 NVIDIA NGC 容器构建高性能的云原生 AI 应用程序。生成的容器可以轻松大规模部署,并使用 Kubernetes 和 Helm Charts 进行管理。
构建端到端 AI 解决方案
通过使用 NVIDIA Metropolis 构建端到端视觉 AI 系统,加快整体开发工作并释放更高的实时性能。从生产质量的视觉 AI 模型开始,使用 TAO 工具包对其进行调整和优化,并使用 DeepStream 进行部署。

获得令人难以置信的灵活性 - 从快速原型设计到完整的生产级解决方案 - 并选择您的推理路径。通过与 NVIDIA Triton™ Inference Server 的原生集成,您可以在原生框架(如 PyTorch 和 TensorFlow )中部署模型以进行推理。使用 NVIDIA TensorRT™ 进行高吞吐量推理,并提供多 GPU、多流和批处理支持选项,也有助于您实现最佳性能。

 访问参考应用程序

DeepStream SDK 捆绑了 30+ 个示例应用程序,旨在帮助用户启动他们的开发工作。大多数示例在 C/C++、Python 和 Graph Composer 版本中可用,并在 NVIDIA Jetson™ 和 dGPU 平台上运行。参考应用程序可用于了解 DeepStream 插件的功能,或作为开发自定义视觉 AI 应用程序的模板和起点。
DeepStream现在还提供与Basler相机的集成,用于工业检测,并为各种应用提供激光雷达支持。
使用图形编辑器
Graph Composer 为 DeepStream 开发人员提供了一个强大的低代码开发选项。简单直观的界面使您可以轻松创建复杂的处理管道,并使用容器生成器快速部署它们。
Graph Composer 抽象了创建最新的实时、多流视觉 AI 应用程序所需的大部分底层 DeepStream、GStreamer 和平台编程知识。用户无需编写代码,而是与广泛的组件库进行交互,使用拖放界面配置和连接它们。
使用 NVIDIA AI Enterprise 加速深流应用程序
NVIDIA AI Enterprise 是一款端到端、安全的云原生 AI 软件套件。它提供了主要优势,包括验证和集成 NVIDIA AI 开源软件,以及访问 AI 解决方案工作流程以加快生产时间。
NVIDIA AI Enterprise 包含企业支持,可帮助您开发由 DeepStream 提供支持的应用程序,并通过全球企业支持管理 AI 应用程序的生命周期。这有助于确保您的业务关键型项目保持正轨。
探索多种编程选项
C/C++
在 C/C++ 中创建应用程序,直接与 GStreamer 和 DeepStream 插件交互,并使用参考应用程序和模板。
DeepStream流水线可以使用GStreamer框架的Python绑定Gst Python构建。绑定和 Python 示例应用程序的源代码可在 GitHub 上找到。
图形编辑器
Graph Composer 是一个低代码开发工具,可增强 DeepStream 用户体验。使用简单直观的 UI,通过拖放操作构造处理管道。
提高准确性和实时性能
DeepStream 为各种对象检测、图像处理和实例分割 AI 模型提供卓越的吞吐量。下表显示了从数据引入、解码和图像处理到推理的端到端应用程序性能。它需要多个 1080p/30fps 流作为输入。请注意,在 Jetson 设备的 DLA 上运行会释放 GPU 以执行其他任务。

Jetson Orin NX

Jetson Orin AGX™

T4

A2

A10

A30

A100

H100

L40

L4

RTX* (A6000)

Application

Models

Tracker

Infer Resolution

Precision

GPU

DLA1

DLA2

GPU

DLA1

DLA2

GPU

GPU

GPU

GPU

GPU

GPU

GPU

GPU

GPU

People Detect

PeopleNet-ResNet34
(Version 2.6)

No Tracker

960x544

INT8

141

65

65

456

130

130

420

233

993

1440

2336

3492

1969

745

1432

People Detect

PeopleNet-ResNet34
(Version 2.6)

NvDCF

960x544

INT8

131

65

65

418

130

130

418

229

957

1375

2048

3196

1946

738

1375

License Plate Recognition

TrafficCamNet
LPDNet
LPRNet

NvDCF

960x544
640x480
96x48

INT8
INT8
FP16

143

-

-

379

-

-

455

290

1155

1301

2059

2531

2323

762

1482

3D Body Pose Estimation

PeopleNet-ResNet34 BodyPose3D

NvDCF

960x544
192x256

INT8
FP16

32

-

-

62

-

-

91

59

143

167

187

207

144

169

144

Action Recognition

ActionRecognitionNet (3DConv)

No Tracker

224x224x3x32

FP16

36

-

-

122

-

-

134

72

1154

2598

2583

3181

2304

2476

1327

RTX GPU的性能仅针对旗舰产品报告。所有 SKU 都支持深度流。
DeepStream SDK 可让您将 AI 应用于流视频,同时优化视频解码/编码、图像缩放、转换和边缘到云连接,以实现完整的端到端性能优化。
 

以上是关于GPGPU开发几个工具包的主要内容,如果未能解决你的问题,请参考以下文章

GPGPU CUDA 调试服务器

GPGPU、OpenCL、CUDA、ATI 流

将 GPU 用作视频卡和 GPGPU

假设检验和GPGPU

是否有支持 GPGPU 编程的显卡列表?

如果我们有 GPGPU,为啥还要使用 SIMD? [关闭]