OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能

Posted OpenCV学堂

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能相关的知识,希望对你有一定的参考价值。

OpenCV4 + CUDA 从配置到代码.....

引子

一直有人在研习社问我,怎么去做OpenCV + CUDA的加速支持。其实网上用搜索引擎就可以找到一堆文章,但是其实你会发现,按照他们的做法基本都不会成功,原因是因为文章中使用的OpenCV版本太老旧、英伟达GPU的CUDA库也太久远。其实这个都不是主要原因,真实原因是OpenCV4跟之前的版本,编译CUDA的方法不一样了。所以感觉有必要自己写一遍,作为全网第一个OpenCV4 + CUDA + GPU编译与代码测试的教程给大家。希望大家都可以获得此技能,整个教程分为如下几个部分:

1. CUDA软件安装与配置

2. OpenCV+cmake编译CUDA模块支持

3. 代码实现与测试

4. 模块支持与应用场景

 

在开始教程之前,先说一下相关软件与版本信息

Windows 10 64bit

英伟达CUDA 10.0

OpenCV 4.1.0

OpenCV扩展模块4.1.0

GTX 1050 TI

VS2015 专业版

CMake 3.13.4


CUDA软件安装与配置

01

https://www.geforce.cn/drivers

 

https://developer.nvidia.com/cuda-toolkithttps://developer.nvidia.com/rdp/cudnn-download

 

下载好之后,就可以开始进行安装,只要默认安装即可。关于CUDA的安装与配置,更加详细的内容可以参考这里:


 


上面的文章中已经详细交代了。安装好之后我们就完成了第一步操作。


OpenCV+CMake编译

02

www.cmake.org


https://github.com/opencv/opencv/releases/download/4.1.0/opencv-4.1.0-vc14_vc15.exehttps://github.com/opencv/opencv_contrib/archive/4.1.0.zip

下载好之后解压缩到D盘指定目录即可。


打开CMake,设置好源码路径与编译输出路径之后,显示如下:

点击【configure】目标,弹出对话框选择如下:

OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能

然后点击【Finish】完成config之后,再点击【generate】按钮。


编译CUDA与扩展模块

完成上述操作之后,然后找到OPENCV_EXTRA_MODULE_PATH设置扩展模块的源代码路径。设置以后,在搜索框中输入CUDA,

WITH_CUDABUILD_CUDA_STUBS

上述两个选项打勾之后,再次点击【configure】按钮,完成之后,显示如下:

OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能

CUDA_FAST_MATH选项打勾,然后执行【Generate】按钮。最终CMake的结果如下:

OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能

这个时候去cudabuild这里目录下,双击打开OpenCV.sln(VS2015工程文件),选择CMake_Targets -> ALL_BUILD,然后右键->生成,完成之后,再选择INSTALL右键生成。这个过程时间会比较久一点,估计会有一个小时到两个小时左右,跟电脑性能有关系。完成之后,你就会看到再cudabuild目录下多出一个install目录,这个就是我们编译得到支持CUDA版本的OpenCV。打开检查一下:

OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能

我的是今天早晨刚刚完成编译的。然后按照正常的OpenCV配置,配置好VS2015+OpenCV开发环境。如果还不知道怎么配置,看这里:

https://www.bilibili.com/video/av36486959

这里需要特别注意一点,我这里没有勾选生成opencv_world,主要是怕编译过程中有模块出错,会导致生产失败,所以就每个模块生成一个lib/dll的库。配置的lib链接器的时候,需要把下面的库文件全部加入:

opencv_aruco410d.lib

opencv_bgsegm410d.lib

opencv_bioinspired410d.lib

opencv_calib3d410d.lib

opencv_ccalib410d.lib

opencv_core410d.lib

opencv_cudaarithm410d.lib

opencv_cudabgsegm410d.lib

opencv_cudacodec410d.lib

opencv_cudafeatures2d410d.lib

opencv_cudafilters410d.lib

opencv_cudaimgproc410d.lib

opencv_cudalegacy410d.lib

opencv_cudaobjdetect410d.lib

opencv_cudaoptflow410d.lib

opencv_cudastereo410d.lib

opencv_cudawarping410d.lib

opencv_cudev410d.lib

opencv_datasets410d.lib

opencv_dnn410d.lib

opencv_dnn_objdetect410d.lib

opencv_dpm410d.lib

opencv_face410d.lib

opencv_features2d410d.lib

opencv_flann410d.lib

opencv_fuzzy410d.lib

opencv_gapi410d.lib

opencv_hfs410d.lib

opencv_highgui410d.lib

opencv_imgcodecs410d.lib

opencv_imgproc410d.lib

opencv_img_hash410d.lib

opencv_line_descriptor410d.lib

opencv_ml410d.lib

opencv_objdetect410d.lib

opencv_optflow410d.lib

opencv_phase_unwrapping410d.lib

opencv_photo410d.lib

opencv_plot410d.lib

opencv_quality410d.lib

opencv_reg410d.lib

opencv_rgbd410d.lib

opencv_saliency410d.lib

opencv_shape410d.lib

opencv_stereo410d.lib

opencv_stitching410d.lib

opencv_structured_light410d.lib

opencv_superres410d.lib

opencv_surface_matching410d.lib

opencv_text410d.lib

opencv_tracking410d.lib

opencv_video410d.lib

opencv_videoio410d.lib

opencv_videostab410d.lib

opencv_xfeatures2d410d.lib

opencv_ximgproc410d.lib

opencv_xobjdetect410d.lib

opencv_xphoto410d.lib

 特别提醒,千万不要copy我的,因为也许你的版本不是OpenCV4.1.0,或者你的编译生成有模块失败,没有我这么多lib文件。这样我们就完成了CUDA编译支持。这里需要特别注意的,在VS2015编译阶段,必须先选择ALL_BUILD,切记

OpenCV代码测试与运行

03

OpenCV4支持CUDA运行的模块,主要包括 图像处理、视频读写、视频分析、传统的对象检测包括HOG、级联检测器、特征提取部分、卷积滤波与图像二值分析、图像分割模块。这里我在OpenCV提供的示例代码基础上稍加改动,实现了一个基于背景分割的视频分析程序:

#include <iostream>
#include <string>

#include "opencv2/core.hpp"
#include "opencv2/core/utility.hpp"
#include "opencv2/cudabgsegm.hpp"
#include "opencv2/video.hpp"
#include "opencv2/highgui.hpp"

using namespace std;
using namespace cv;
using namespace cv::cuda;

enum Method
{
    MOG,
    MOG2,
};

int main(int argc, const char** argv)
{
    Method m = MOG;

    int count = cuda::getCudaEnabledDeviceCount();
    printf("GPU Device Count : %d \n", count);

    VideoCapture cap;
    cap.open("D:/images/video/example_dsh.mp4");

    Mat frame;
    cap >> frame;

    GpuMat d_frame(frame);

    Ptr<BackgroundSubtractor> mog = cuda::createBackgroundSubtractorMOG();
    Ptr<BackgroundSubtractor> mog2 = cuda::createBackgroundSubtractorMOG2();

    GpuMat d_fgmask;
    GpuMat d_fgimg;
    GpuMat d_bgimg;

    Mat fgmask;
    Mat fgimg;
    Mat bgimg;

    switch (m)
    {
    case MOG:
        mog->apply(d_frame, d_fgmask, 0.01);
        break;

    case MOG2:
        mog2->apply(d_frame, d_fgmask);
        break;
    }

    namedWindow("image", WINDOW_AUTOSIZE);
    namedWindow("foreground mask", WINDOW_AUTOSIZE);
    namedWindow("foreground image", WINDOW_AUTOSIZE);
    namedWindow("mean background image", WINDOW_AUTOSIZE);

    for (;;)
    {
        cap >> frame;
        if (frame.empty())
            break;
        int64 start = cv::getTickCount();
        d_frame.upload(frame);


        //update the model
        switch (m)
        {
        case MOG:
            mog->apply(d_frame, d_fgmask, 0.01);
            mog->getBackgroundImage(d_bgimg);
            break;

        case MOG2:
            mog2->apply(d_frame, d_fgmask);
            mog2->getBackgroundImage(d_bgimg);
            break;
        }


        d_fgimg.create(d_frame.size(), d_frame.type());
        d_fgimg.setTo(Scalar::all(0));
        d_frame.copyTo(d_fgimg, d_fgmask);

        d_fgmask.download(fgmask);
        d_fgimg.download(fgimg);
        if (!d_bgimg.empty())
            d_bgimg.download(bgimg);

        imshow("foreground mask", fgmask);
        imshow("foreground image", fgimg);
        if (!bgimg.empty())
            imshow("mean background image", bgimg);

        double fps = cv::getTickFrequency() / (cv::getTickCount() - start);
        // std::cout << "FPS : " << fps << std::endl;
        putText(frame, format("FPS : %.2f", fps), Point(5050), FONT_HERSHEY_SIMPLEX, 1.0, Scalar(00255), 28);

        imshow("image", frame);
        char key = (char)waitKey(1);
        if (key == 27)
            break;
    }

    return 0;
}


在我的电脑上 基于1080P的视频文件

  • CPU版本的运行是大概在2FPS

  • GPU版本CUDA加速运行大概在 80 FPS

OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能

怎么说,完全是碾压式的速度优势。看来以后视频处理必须CUDA版本才过瘾。来自官方的更多加速比较图示如下:

OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能

测试1920x1080大小的视频文件,处理帧率如下:

OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能

可以说完全实时无压力!


模块支持与应用场景

04

既然CUDA加速这么厉害,为什么OpenCV在正式的release中却没有包含呢?本人觉得OpenCV正式的官方Release版本主要是考虑普适性的问题。另外OpenCV在3.x到4.x升级的时候把CUDA支持从release移到扩展模块中去了,官方也没有解释为什么,我个人感觉更多的是出于商业考虑。


此外OpenCV中DNN模块已经支持OpenVINO加速执行与NCS2加速、所以OpenCV DNN模块不支持英伟达显卡加速支持,支持的模块大部分是以前的传统图像处理、对象检测、特征匹配、双目、图像拼接部分,其实这些对我们已经十分有用,大大扩展了OpenCV的应用场景、另外千万不要随便使用CUDA加速,有些简单的算法,OpenCV已经做的很好了,加速的效果并不明显,不信可以看下面的这个例子:

OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能

有点是车祸现场,原因很好解释。这个是因为OpenCV中使用CUDA需要把Mat对象数据上传到CUDA支持单元,完成处理以后再下载到Mat对象上,对一些简单的图像处理,这个操作很容易成为性能瓶颈,从而降低了加速效应。


欢迎扫码加入【OpenCV研习社】

推荐阅读






以上是关于OpenCV4 | 如何让传统图像处理实现三十倍加速的顶级技能的主要内容,如果未能解决你的问题,请参考以下文章

OpenCV4+OpenVINO实现图像的超像素

OpenCV4 系统化学习路线图与教程

OpenCV4系统化学习路线图与教程

OpenCV4最全系统化学习路线图与教程!

福利 | 六一送OpenCV4系统化学习路线图

AGG第三十二课 renderer_outline_aa更快的渲染线段算法