CANN开发实践：4个DVPP内存问题的典型案例解读

Posted 2023-04-19 华为云开发者社区

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CANN开发实践：4个DVPP内存问题的典型案例解读相关的知识，希望对你有一定的参考价值。

摘要：由于DVPP媒体数据处理功能对存放输入、输出数据的内存有更高的要求（例如，内存首地址128字节对齐），因此需调用专用的内存申请接口，那么本期就分享几个关于DVPP内存问题的典型案例，并给出原因分析及解决方法。

本文分享自华为云社区《FAQ_DVPP内存问题案例》，作者：昇腾CANN。

DVPP是昇腾AI处理器内置的图像处理单元，通过AscendCL媒体数据处理接口提供强大的媒体处理硬加速能力，主要功能包括图像编解码、视频编解码、图像抠图缩放等。

由于媒体数据处理功能对存放输入、输出数据的内存有更高的要求（例如，内存首地址128字节对齐），因此需调用专用的内存申请接口，那么本期就分享几个关于DVPP内存问题的典型案例，并给出原因分析及解决方法：

使用错误的DVPP内存申请接口，导致应用程序报错并退出
内存大小不符合DVPP的要求，导致应用程序报错并退出
DVPP内存被提前释放，导致视频流解码输出的图像异常
DVPP读/写内存地址无效，导致应用程序异常中断

01 使用错误的DVPP内存申请接口，导致应用程序报错并退出

现象描述

从日志存放路径（默认为“$HOME/ascend/log”）下获取运行应用程序的日志，日志中的报错示例如下：

device:0 chn 0, input buffer is invalid, make sure it has been allocated with hi_mpi_dvpp_malloc or acldvppMalloc.

device:0 chn 0, output buffer is invalid, make sure it has been allocated with hi_mpi_dvpp_malloc or acldvppMalloc.

可能原因

根据日志提示，是因为没有使用指定的接口申请内存，导致内存地址校验出错。

由于DVPP媒体数据处理功能对存放输入、输出数据的内存有更高的要求（例如，内存首地址128字节对齐），因此需调用专用的内存申请接口，如下：

调用媒体数据处理V1版本的接口对图片进行抠图、缩放等操作时，调用acldvppMalloc接口申请内存。
调用媒体数据处理V2版本的接口对图片进行抠图、缩放等操作时，调用hi_mpi_dvpp_malloc接口申请内存。

处理步骤

检查代码，确认在DVPP媒体数据处理的各功能中，是否使用acldvppMalloc接口/ hi_mpi_dvpp_malloc接口申请存放输入或输出数据的Device内存。

但需注意：

可将DVPP媒体数据处理的输出作为模型推理的输入,从性能角度，减少拷贝，实现内存复用。
由于DVPP媒体数据处理访问的专用地址空间有限，为确保媒体数据处理时内存足够，除媒体数据处理功能外，其它使用Device内存的功能，建议调用aclrtMalloc接口申请内存。

02 内存大小不符合DVPP的要求，导致应用程序报错并退出

现象描述

从日志存放路径（默认为“$HOME/ascend/log”）下获取运行应用程序的日志，日志中的报错示例如下：

buffer size(3110400) is smaller than need buffer size(4147200) when format is 3.

device 0, vpc end address is illegal, check allocated buffer size: configured buffer size: 3110400, current pic: format 3 width_stride 1920 height_stride 1080.

可能原因

虽然使用了正确的DVPP内存申请接口，但：

代码中申请的内存大小小于该格式所需的输入或输出内存大小;
或者传入接口的内存大小正常，与输入格式也匹配，但是超出了实际申请的内存大小，所以校验出来结束地址非法。

处理步骤

1. 进入昇腾文档中心（https://www.hiascend.com/zh/document），拖动到“推理”区域，通过API参考进入最新版本的文档（或者可以在左上方选择需要的版本），在媒体数据处理章节，根据DVPP各功能对内存大小的要求，检查代码中对应格式的内存大小是否正确;

2. 在代码中增加打印内存长度的日志，检查传入接口的内存大小是否与实际申请的内存大小一致。

03 DVPP内存被提前释放，导致视频流解码输出的图像异常

现象描述

原始H264/H265每一帧视频流正常，解码过程无异常（无异常日志），仅输出图片有异常。

可能原因

解码过程无异常，说明送入的视频码流不是异常码流，仅输出被破坏，可能由于：

输出内存被复用、被踩或者被提前释放;
解码需要的输出内存比实际申请的内存大。

处理步骤

对于DVPP内存申请接口，增加日志打印内存大小及地址，检查VDEC输出内存，检查申请的内存大小是否与实际使用的一致，比如典型的错误场景，VDEC解码输出格式预期是RGB，实际仍按照YUV420SP申请内存。
在DVPP内存释放接口处、以及hi_mpi_vdec_get_frame/aclvdecCallback/acldvppJpegDecodeAsync接口处，增加内存大小及地址的打印日志，确认内存释放时序，是否存在内存地址解码完成前被提前释放的情况。

04 DVPP读/写内存地址无效，导致应用程序异常中断

现象描述

从日志存放路径（默认为“$HOME/ascend/log”）下获取运行应用程序的日志，Device侧内核态日志报错图像处理模块异常，报错示例如下：

vpc get err int: vpc_cvdr_axi_rd_resp_err

vpc get err int: vpc_cvdr_axi_wr_resp_err

可能原因

cvdr_axi_rd_resp_err：表示读地址越界，可能申请的输入内存太小或内存地址无效，昇腾AI处理器执行读操作时访问到了无效地址。
cvdr_axi_wr_resp_err：表示写地址越界，可能申请的输出内存太小或内存地址无效，昇腾AI处理器执行写操作时访问到了无效地址。

处理步骤

1. 在申请DVPP内存的接口处、以及在异常任务接口处增加日志打印，检查申请的输入\\输出内存大小与实际使用的输入\\输出内存大小是否一致；

2. 在释放DVPP内存的接口处增加打印日志，检查任务完成之前是否存在内存被提前释放的情况。

05 更多介绍

[1]昇腾文档中心

[2]昇腾社区在线课程

[3]昇腾论坛

点击关注，第一时间了解华为云新鲜技术~

理论+实践，揭秘昇腾CANN算子开发

摘要： 本文介绍了CANN自定义算子开发的几种开发方式和算子的编译运行流程。然后以开发一个DSL Add算子为例，讲解算子开发的基本流程。

本文分享自华为云社区《昇腾CANN算子开发揭秘》，作者：昇腾CANN 。

开发者在利用昇腾硬件进行神经网络模型训练或者推理的过程中，可能会遇到以下场景：

训练场景下，将第三方框架（例如TensorFlow、PyTorch等）的网络训练脚本迁移到昇腾AI处理器时遇到了不支持的算子。
推理场景下，将第三方框架模型（例如TensorFlow、Caffe、ONNX等）使用ATC工具转换为适配昇腾AI处理器的离线模型时遇到了不支持的算子。
网络调优时，发现某算子性能较低，影响网络性能，需要重新开发一个高性能算子替换性能较低的算子。
推理场景下，应用程序中的某些逻辑涉及到数学运算（例如查找最大值，进行数据类型转换等），希望通过自定义算子的方式实现这些逻辑，从而获得性能提升。

此时我们就需要考虑进行自定义算子的开发，本期我们主要带您了解CANN自定义算子的几种开发方式和基本开发流程，让您对CANN算子有宏观的了解。

一、算子基本概念

相信大家对算子的概念并不陌生，这里我们来做简单回顾。深度学习算法由一个个计算单元组成，我们称这些计算单元为算子（Operator，简称OP）。

在网络模型中，算子对应层中的计算逻辑，例如：卷积层（Convolution Layer）是一个算子；全连接层（Fully-connected Layer， FC layer）中的权值求和过程，是一个算子。

再例如：tanh、ReLU等，为在网络模型中被用做激活函数的算子。

二、CANN自定义算子开发方式

学习CANN自定义算子开发方式之前，我们先来了解一下CANN算子的运行位置：包括AI Core和AI CPU。

AI Core是昇腾AI处理器的计算核心，负责执行矩阵、向量、标量计算密集的算子任务。
AI CPU负责执行不适合跑在AI Core上的算子，是AI Core算子的补充，主要承担非矩阵类、逻辑比较复杂的分支密集型计算。

CANN支持用户使用多种方式来开发自定义算子，包括TBE DSL、TBE TIK、AICPU三种开发方式。其中TBE DSL、TBE TIK算子运行在AI Core上，AI CPU算子运行在AI CPU上。

1. 基于TBE开发框架的算子开发

TBE（Tensor Boost Engine：张量加速引擎）是CANN提供的算子开发框架，开发者可以基于此框架使用Python语言开发自定义算子，通过TBE进行算子开发有TBE DSL、TBE TIK两种方式。

TBE DSL（Domain-Specific Language ，基于特性域语言）开发方式

为了方便开发者进行自定义算子开发，CANN预先提供一些常用运算的调度，封装成一个个运算接口，称为基于TBE DSL开发。DSL接口已高度封装，用户仅需要使用DSL接口完成计算过程的表达，后续的算子调度、算子优化及编译都可通过已有的接口一键式完成，适合初级开发用户。

TBE TIK（Tensor Iterator Kernel）开发方式

TIK（Tensor Iterator Kernel）是一种基于Python语言的动态编程框架，呈现为一个Python模块，运行于Host CPU上。开发者可以通过调用TIK提供的API基于Python语言编写自定义算子，TIK编译器会将其编译为昇腾AI处理器应用程序的二进制文件。

TIK需要用户手工控制数据搬运和计算流程，入门较高，但开发方式比较灵活，能够充分挖掘硬件能力，在性能上有一定的优势。

2. AI CPU算子开发方式

AI CPU算子的开发接口即为原生C++接口，具备C++程序开发能力的开发者能够较容易的开发出AI CPU算子。AI CPU算子在AI CPU上运行。

下面的开发方式一览表，对上述几种开发方式作对比说明，您可以根据各种开发方式的适用场景选择适合的开发方式。

三、CANN算子编译运行

算子构成

一个完整的CANN算子包含四部分：算子原型定义、对应开源框架的算子适配插件、算子信息库和算子实现。这四个组成部分会在算子编译运行的过程中使用。

算子编译

推理场景下，进行模型推理前，我们需要使用ATC模型转换工具将原始网络模型转换为适配昇腾AI处理器的离线模型，该过程中会对网络中的算子进行编译。

训练场景下，当我们跑训练脚本时，CANN内部实现逻辑会先将开源框架网络模型下发给Graph Engine进行图编译，该过程中会对网络中的算子进行编译。

CANN算子的编译逻辑架构如下：

具体的CANN算子编译流程如下，在编译流程中会用到上文提到的算子的四个组成部分。

Graph Engine调用算子插件，将原始网络模型中的算子映射为适配昇腾AI处理器的算子，从而将原始开源框架图解析为适配昇腾AI处理器的图。
调用算子原型库校验接口进行基本参数的校验，校验通过后，会根据原型库中的推导函数推导每个节点的输出shape与dtype，进行输出tensor的静态内存的分配。
Graph Engine根据图中数据将图拆分为子图并下发给FE。FE在处理过程中根据算子信息库中算子信息找到算子实现，将其编译成算子kernel，最后将优化后子图返回给Graph Engine。
Graph Engine进行图编译，包含内存分配、流资源分配等，并向FE发送tasking请求，FE返回算子的taskinfo信息给Graph Engine，图编译完成后生成适配昇腾AI处理器的模型。

算子运行

推理场景下，使用ATC模型转换工具将原始网络模型转换为适配昇腾AI处理器的离线模型后，开发AscendCL应用程序，加载转换好的离线模型文件进行模型推理，该过程中会进行算子的调用执行。

训练场景下，当我们跑训练脚本时，内部实现逻辑将开源框架网络模型下发给Graph Engine进行图编译后，后续的训练流程会进行算子的调用执行。

CANN算子的运行逻辑架构如下：

具体流程如下，首先Graph Engine下发算子执行请求给Runtime，然后Runtime会判断算子的Task类型，若是TBE算子，则将算子执行请求下发到AI Core上执行；若是AI CPU算子，则将算子执行请求下发到AI CPU上执行。

四、算子开发流程

本章节以通过DSL开发方式开发一个Add算子为例，带您快速体验CANN算子开发的流程。流程图如下：

算子开发准备

环境准备：准备算子开发及运行验证所依赖的开发环境与运行环境。工程创建：创建算子开发工程，有以下几种实现方式：

基于MindStudio工具进行算子开发，直接使用MindStudio工具创建算子工程，会自动生成算子工程及代码模板。
基于msopgen工具进行开发，会自动生成算子工程及代码模板。
基于自定义算子样例工程进行开发，开发者需要自己创建算子相关实现文件，或者基于已有样例进行修改。

下面以msopgen工具创建算子开发工程为例进行介绍：

定义AddDSL算子的原型定义json文件，用于生成AddDSL的算子开发工程。例如，定义的json文件的名字为add_dsl.json，存储路径为:$HOME/sample，文件内容如下：

[

 "op":"AddDSL", 
 "input_desc":[
  
 "name":"x1", 
 "param_type":"required", 
 "format":[ 
 "NCHW"
 ],
 "type":[ 
 "fp16"
 ]
 ,
  
 "name":"x2",
 "param_type":"required",
 "format":[
 "NCHW"
 ],
 "type":[
 "fp16"
 ]
 
 ],
 "output_desc":[ 
  
 "name":"y",
 "param_type":"required",
 "format":[
 "NCHW"
 ],
 "type":[
 "fp16"
 ]
 
 ]

]

使用msopgen工具生成AddDSL算子的开发工程。

$HOME/Ascend/ascend-toolkit/latest/python/site-packages/bin/msopgen gen -i $HOME/sample/add_dsl.json -f tf -c ai_core-Ascend310 -out $HOME/sample/AddDsl

“$HOME/Ascend”为CANN软件安装目录；

“-f tf”参数代表选择的原始框架为TensorFlow；

“ai_core-<soc_version>”代表算子在AI Core上运行，<soc_version>为昇腾AI处理器的型号。

此命令执行完后，会在$HOME/sample/AddDsl目录下生成算子工程，工程中包含各交付件的模板文件，编译脚本等，如下所示：

AddDsl
├── build.sh                           // 编译入口脚本
├── cmake // 编译解析脚本存放目录
├── CMakeLists.txt                      
├── framework                          // 算子适配插件相关文件存放目录
│   ├── CMakeLists.txt
│   └── tf_plugin
│       ├── CMakeLists.txt
│       └── tensorflow_add_dsl_plugin.cc   // 算子适配插件实现文件
├── op_proto // 算子原型定义相关文件存放目录
│   ├── add_dsl.cc 
│   ├── add_dsl.h 
│   └── CMakeLists.txt
├── op_tiling
│   └── CMakeLists.txt
├── scripts               // 自定义算子工程打包脚本存放目录
└── tbe
    ├── CMakeLists.txt
    ├── impl // 算子代码实现
    │   └── add_dsl.py 
    └── op_info_cfg // 算子信息库存放目录
        └── ai_core
            └── <soc_version> 
                └── add_dsl.ini

算子开发过程

实现AddDSL算子的原型定义。

算子原型定义文件包含算子注册代码的头文件（*.h）以及实现基本校验、Shape推导的实现文件（*.cc）。

msopgen工具根据add_dsl.json文件在“op_proto/add_dsl.h”中生成了算子注册代码，开发者需要检查自动生成的代码逻辑是否正确，一般无需修改。
改“op_proto/add_dsl.cc”文件，实现算子的输出描述推导函数及校验函数。

在IMPLEMT_COMMON_INFERFUNC(AddDSLInferShape)函数中，填充推导输出描述的代码，针对AddDSL算子，输出Tensor的描述信息与输入Tensor的描述信息相同，所以直接将任意一个输入Tensor的描述赋給输出Tensor即可。

IMPLEMT_COMMON_INFERFUNC(AddDSLInferShape)

 // 获取输出数据描述
 TensorDesc tensordesc_output = op.GetOutputDescByName("y");
    tensordesc_output.SetShape(op.GetInputDescByName("x1").GetShape());
    tensordesc_output.SetDataType(op.GetInputDescByName("x1").GetDataType());
    tensordesc_output.SetFormat(op.GetInputDescByName("x1").GetFormat());
 //直接将输入x1的Tensor描述信息赋给输出
 (void)op.UpdateOutputDesc("y", tensordesc_output);
 return GRAPH_SUCCESS;

在IMPLEMT_VERIFIER(AddDSL, AddDSLVerify)函数中，填充算子参数校验代码。

IMPLEMT_VERIFIER(AddDSL, AddDSLVerify)

 // 校验算子的两个输入的数据类型是否一致，若不一致，则返回失败。
 if (op.GetInputDescByName("x1").GetDataType() != op.GetInputDescByName("x2").GetDataType()) 
 return GRAPH_FAILED;
 
 return GRAPH_SUCCESS;

实现AddDSL算子的计算逻辑。

“tbe/impl/add_dsl.py”文件中已经自动生成了算子代码的框架，开发者需要在此文件中修改add_dsl_compute函数，实现此算子的计算逻辑。

add_dsl_compute函数的实现代码如下：

@register_op_compute("add_dsl")
def add_dsl_compute(x1, x2, y, kernel_name="add_dsl"):
 # 调用dsl的vadd计算接口
    res = tbe.vadd(x1, x2)
 return res

配置算子信息库。

算子信息库的路径为“tbe/op_info_cfg/ai_core/<soc_version>/add_dsl.ini”，包含了算子的类型，输入输出的名称、数据类型、数据排布格式等信息，msopgen工具已经根据add_dsl.json文件将上述内容自动填充，开发者无需修改。

AddDSL算子的信息库如下：

[AddDSL] // 算子的类型 
input0.name=x1              // 第一个输入的名称
input0.dtype=float16        // 第一个输入的数据类型
input0.paramType=required   // 代表此输入必选，且仅有一个
input0.format=NCHW          // 第一个输入的数据排布格式
input1.name=x2              // 第二个输入的名称
input1.dtype=float16        // 第二个输入的数据类型
input1.paramType=required   // 代表此输入必选，且仅有一个
input1.format=NCHW          // 第二个输入的数据排布格式
output0.name=y              // 算子输出的名称
output0.dtype=float16       // 算子输出的数据类型
output0.paramType=required  // 代表此输出必选，有且仅有一个
output0.format=NCHW         // 算子输出的数据排布格式
opFile.value=add_dsl // 算子实现文件的名称
opInterface.value=add_dsl // 算子实现函数的名称

实现算子适配插件。

算子适配插件实现文件的路径为“framework/tf_plugin/tensorflow_add_dsl_plugin.cc”，针对原始框架为TensorFlow的算子，CANN提供了自动解析映射接口“AutoMappingByOpFn”，如下所示：

#include "register/register.h"
namespace domi 
// register op info to GE
REGISTER_CUSTOM_OP("AddDSL") // CANN算子的类型
 .FrameworkType(TENSORFLOW) // type: CAFFE, TENSORFLOW
 .OriginOpType("AddDSL") // 原始框架模型中的算子类型
 .ParseParamsByOperatorFn(AutoMappingByOpFn); //解析映射函数
 // namespace domi

以上为工程自动生成的代码，开发者仅需要修改.OriginOpType("AddDSL")中的算子类型即可。此处我们仅展示算子开发流程，不涉及原始模型，我们不做任何修改。

至此，AddDSL算子的所有交付件都已开发完毕。

算子工程编译及算子包部署

算子开发过程完成后，需要编译自定义算子工程，生成自定义算子安装包并进行自定义算子包的安装，将自定义算子部署到算子库。

算子工程编译

1. 修改build.sh脚本，配置算子编译所需环境变量。

将build.sh中环境变量ASCEND_TENSOR_COMPILER_INCLUDE配置为CANN软件头文件所在路径。

修改前，环境变量配置的原有代码行如下：

# export ASCEND_TENSOR_COMPILER_INCLUDE=/usr/local/Ascend/ascend-toolkit/latest/compiler/include

修改后，新的代码行如下：

export ASCEND_TENSOR_COMPILER_INCLUDE=$INSTALL_DIR/include

$INSTALL_DIR请替换为CANN软件安装后文件存储路径。例如，若安装的Ascend-cann-toolkit软件包，则安装后文件存储路径为：$HOME/Ascend/ascend-toolkit/latest。

2. 在算子工程目录下执行如下命令，进行算子工程编译。

./build.sh

编译成功后，会在当前目录下创建build_out目录，并在build_out目录下生成自定义算子安装包custom_opp_<target os>_<target architecture>.run。

自定义算子安装包部署

以运行用户执行如下命令，安装自定义算子包。

./custom_opp_<target os>_<target architecture>.run

命令执行成功后，自定义算子包中的相关文件部署到CANN算子库中。

算子运行验证

算子包部署完成后，可以进行ST测试（System Test）和网络测试，对算子进行运行验证。

ST测试

ST测试的主要功能是：基于算子测试用例定义文件*.json生成单算子的om文件；使用AscendCL接口加载并执行单算子om文件，验证算子执行结果的正确性。ST测试会覆盖算子实现文件，算子原型定义与算子信息库，不会对算子适配插件进行测试。

网络测试

你可以将算子加载到网络模型中进行整网的推理验证，验证自定义算子在网络中运行结果是否正确。网络测试会覆盖算子开发的所有交付件，包含实现文件，算子原型定义、算子信息库以及算子适配插件。

具体的验证过程请参考“昇腾文档中心”。

以上就是CANN自定义算子开发的相关知识点，您也可以在“昇腾社区在线课程”板块学习视频课程，学习过程中的任何疑问，都可以在“昇腾论坛”互动交流！

CANN开发实践：4个DVPP内存问题的典型案例解读

01 使用错误的DVPP内存申请接口，导致应用程序报错并退出

现象描述

可能原因

处理步骤

02 内存大小不符合DVPP的要求，导致应用程序报错并退出

现象描述

可能原因

处理步骤

03 DVPP内存被提前释放，导致视频流解码输出的图像异常

现象描述

可能原因

处理步骤

04 DVPP读/写内存地址无效，导致应用程序异常中断

现象描述

可能原因

处理步骤

05 更多介绍

理论+实践，揭秘昇腾CANN算子开发

一、算子基本概念

二、CANN自定义算子开发方式

1. 基于TBE开发框架的算子开发

2. AI CPU算子开发方式

三、CANN算子编译运行

算子构成

算子编译

算子运行

四、算子开发流程

算子开发准备

算子开发过程

算子工程编译及算子包部署

算子运行验证

相关参考：