PaddleOCR C++学习笔记

Posted 2021-07-28 OpenCV or Android

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了PaddleOCR C++学习笔记相关的知识，希望对你有一定的参考价值。

学更好的别人，

做更好的自己。

——《微卡智享》

本文长度为4388字，预计阅读9分钟

前言

上一篇《》中把PaddleOCR的动态库编译完也调用成功，也考虑了几个可以优化的方法，本来也是想按自己的想法做的优化，过程中也踩到了不少的坑，慢慢填吧。这篇文章算是做了一个踩坑的记录。

上篇提的优化方向

PaddleOCR C++学习笔记（二）

上图中可以看到，上一篇说过的两个优化方向：

替换通用的OCR识别模型
分割华容道图片，单张识别

替换通用的OCR模型

下载通用OCR模型

这个比较简单，直接在PaddleOCR的源码里面找到对应的推理模型下载替换。

PaddleOCR C++学习笔记（二）

其中中间那个方向分类器的模型和轻量的模型是一样的，所以这个可以不用下载。

PaddleOCR C++学习笔记（二）

下载完解压后我们一样拷贝到定义的模型目录下，可以看到只替换det_infer的检测模型和rec_infer的识别模型，中间带有server的就是新下载的通用OCR模型。

修改Config.txt配置文件

PaddleOCR C++学习笔记（二）

接下来返回上级目录修改Config.txt的配置文件，将检测模型det_model_dir和识别模型rec_model_dir修改为刚刚下载的通用OCR模型的路径即可。

对比效果

PaddleOCR C++学习笔记（二）

通用OCR模型

PaddleOCR C++学习笔记（二）

轻量OCR模型

替换了确实识别率比原来的模型好的，从上图中可以看到，原来数字华容道识别为数字革容道，而通用模型识别就完全没有问题。

问题一解决。

分割数字华容道棋盘

麻烦的终于来，这个真是花了不少时间，过程中由于没有截图，这里就说说问题吧。

1.通过检测矩形进行区分

最先考虑的是检测透视变换后的图像，从中轮廓查找所有的矩形，但是由于图片光照或其它原因，通过二值化或是边缘检测，都会存在未闭合的情况，没法做区分，效果并不好，所以放弃。

2.通过距离变换与分水岭分割

用拉普拉斯算子提高图像对比度
二值化图像后进行距离变换
对距离变换后的再进行归一化
查找轮廓并实现分水岭分割
用上面的方法输出的效果也并不是想要的，所以这个也放弃了。

3.霍夫直线检测

上面的两个效果不好，然后就想已经通过透视变换将图像矫正过来了，所以用直线检测后计算点来定位矩形再分割。使用中霍夫直接的函数调参花了不少时间，效果也不好，并且后续的处理应该也很麻烦，所以暂时也放弃了。

4.透视变换迭代

上面三个方法是在图像中查找16个矩形再分割，处理的效果都不理想，所以就考虑透视变换的图像中再做处理，在原来的透视变换中再做迭代的处理，再查找一次里面的最大正方形截取出来，这样直接进行等比分割就简单多了，于是就把原来main.cpp里面预处理透视变换的代码封装了函数，用递归的方式实现自定义迭代次数。

PaddleOCR C++学习笔记（二）

cv::Mat PaddleOcrApi::GetPerspectiveMat(cv::Mat& src, int iterations){ cv::Mat tmpsrc, cannysrc, resultMat; src.copyTo(tmpsrc);
 //高斯滤波 cv::GaussianBlur(tmpsrc, tmpsrc, cv::Size(5, 5), 0.5, 0.5);
 int srcArea = tmpsrc.size().area(); float maxArea = 0; int maxAreaidx = -1;
 std::vector<cv::Mat> channels; cv::Mat B_src, G_src, R_src, dstmat; cv::split(tmpsrc, channels);
 int minthreshold = 120, maxthreshold = 200;
 //B进行Canny //大津法求阈值 CvUtils::GetMatMinMaxThreshold(channels[0], minthreshold, maxthreshold, 1); std::cout << "OTSUmin:" << minthreshold << " OTSUmax:" << maxthreshold << std::endl; //Canny边缘提取 cv::Canny(channels[0], B_src, minthreshold, maxthreshold);
 //大津法求阈值 CvUtils::GetMatMinMaxThreshold(channels[1], minthreshold, maxthreshold, 1); std::cout << "OTSUmin:" << minthreshold << " OTSUmax:" << maxthreshold << std::endl; //Canny边缘提取 Canny(channels[1], G_src, minthreshold, maxthreshold);
 //大津法求阈值 CvUtils::GetMatMinMaxThreshold(channels[2], minthreshold, maxthreshold, 1); std::cout << "OTSUmin:" << minthreshold << " OTSUmax:" << maxthreshold << std::endl; //Canny边缘提取 Canny(channels[2], R_src, minthreshold, maxthreshold);

 bitwise_or(B_src, G_src, dstmat); bitwise_or(R_src, dstmat, dstmat); //CvUtils::SetShowWindow(dstmat, "dstmat", 700, 20); //imshow("dstmat", dstmat);

 std::vector<std::vector<cv::Point>> contours; std::vector<cv::Vec4i> hierarchy; findContours(dstmat, contours, hierarchy, cv::RETR_TREE, cv::CHAIN_APPROX_SIMPLE);
 cv::Mat dstcontour = cv::Mat::zeros(cannysrc.size(), CV_8SC3); cv::Mat tmpcontour; dstcontour.copyTo(tmpcontour);
 //定义拟合后的多边形数组 std::vector<std::vector<cv::Point>> vtshulls(contours.size());
 for (int i = 0; i < contours.size(); ++i) { //判断轮廓形状，不是四边形的忽略掉 double lensval = 0.01 * arcLength(contours[i], true); std::vector<cv::Point> convexhull; approxPolyDP(cv::Mat(contours[i]), convexhull, lensval, true);
 //拟合的多边形存放到定义的数组中 vtshulls[i] = convexhull;
 //不是四边形的过滤掉 if (convexhull.size() != 4) continue;
 //求出最小旋转矩形 cv::RotatedRect rRect = minAreaRect(contours[i]); //更新最小旋转矩形中面积最大的值 if (rRect.size.height == 0) continue;
 if (rRect.size.area() > maxArea && rRect.size.area() > srcArea * 0.1 && !CvUtils::CheckRectBorder(src, rRect)) { maxArea = rRect.size.area(); maxAreaidx = i; } }
 //找到符合条码的最大面积的轮廓进行处理 if (maxAreaidx >= 0) { std::cout << "iterations:" << iterations << " maxAreaidx:" << maxAreaidx << std::endl; //获取最小旋转矩形 cv::RotatedRect rRect = minAreaRect(contours[maxAreaidx]); cv::Point2f vertices[4]; //重新排序矩形坐标点，按左上，右上，右下，左下顺序 CvUtils::SortRotatedRectPoints(vertices, rRect);
 std::cout << "Rect:" << vertices[0] << vertices[1] << vertices[2] << vertices[3] << std::endl;
 //根据获得的4个点画线 for (int k = 0; k < 4; ++k) { line(dstcontour, vertices[k], vertices[(k + 1) % 4], cv::Scalar(255, 0, 0)); }
 //计算四边形的四点坐标 cv::Point2f rPoints[4]; CvUtils::GetPointsFromRect(rPoints, vertices, vtshulls[maxAreaidx]); for (int k = 0; k < 4; ++k) { line(dstcontour, rPoints[k], rPoints[(k + 1) % 4], cv::Scalar(255, 255, 255)); }

 //采用离最小矩形四个点最近的重新设置范围，将所在区域的点做直线拟合再看看结果 cv::Point2f newPoints[4]; CvUtils::GetPointsFromFitline(newPoints, rPoints, vertices); for (int k = 0; k < 4; ++k) { line(dstcontour, newPoints[k], newPoints[(k + 1) % 4], cv::Scalar(255, 100, 255)); }

 //根据最小矩形和多边形拟合的最大四个点计算透视变换矩阵  cv::Point2f rectPoint[4]; //计算旋转矩形的宽和高 float rWidth = CvUtils::CalcPointDistance(vertices[0], vertices[1]); float rHeight = CvUtils::CalcPointDistance(vertices[1], vertices[2]); //计算透视变换的左上角起始点 float left = dstcontour.cols; float top = dstcontour.rows; for (int i = 0; i < 4; ++i) { if (left > newPoints[i].x) left = newPoints[i].x; if (top > newPoints[i].y) top = newPoints[i].y; }
 rectPoint[0] = cv::Point2f(left, top); rectPoint[1] = rectPoint[0] + cv::Point2f(rWidth, 0); rectPoint[2] = rectPoint[1] + cv::Point2f(0, rHeight); rectPoint[3] = rectPoint[0] + cv::Point2f(0, rHeight);

 //计算透视变换矩阵  cv::Mat warpmatrix = getPerspectiveTransform(rPoints, rectPoint); cv::Mat resultimg; //透视变换 warpPerspective(src, resultimg, warpmatrix, resultimg.size(), cv::INTER_LINEAR);
 /*CvUtils::SetShowWindow(resultimg, "resultimg", 200, 20); imshow("resultimg", resultimg);*/
 //载取透视变换后的图像显示出来 cv::Rect cutrect = cv::Rect(rectPoint[0], rectPoint[2]); resultMat = resultimg(cutrect);
 //CvUtils::SetShowWindow(resultMat, "resultMat", 600, 20); //cv::imshow("resultMat", resultMat);
 iterations--; if (iterations > 0) { resultMat = GetPerspectiveMat(resultMat, iterations); } } else { src.copyTo(resultMat); } return resultMat;}

PaddleOCR C++学习笔记（二）

调用时把参数改为2，做两次透视变换。

对比效果

PaddleOCR C++学习笔记（二）

这张效果是一样的

PaddleOCR C++学习笔记（二）

这样检测的就有问题，显示不对

PaddleOCR C++学习笔记（二）

这张比较明显，做了二次截取后只保留了16格的棋盘

PaddleOCR C++学习笔记（二）

这张效果是一样的

PaddleOCR C++学习笔记（二）

这张也是我想要的效果

试了多次来说，处理的效果都和预期有差，所以最终考虑了下，还是修改PaddleOCR的源码应该比这个效果好，于是就继续研究PaddleOCR源码。

PaddleOCR C++学习笔记（二）

首先检测的文本框会存放到boxes的容器中

PaddleOCR C++学习笔记（二）

点开RunOCR的函数，遍历boxes的容器后会有个GetRotateCropImage的函数。

PaddleOCR C++学习笔记（二）

在GetRotateCropImage函数中会根据box的点生成截取的图像矩形，所以可以在这里考虑改造函数，将生成的Rect返回来，然后通过坐标和大小来定位及找到对应的识别文本。

其实写这一篇踩坑记录的文章，主要就是用输出来加深自己的印象，学习的会更牢固些，并且在不断地尝试中也会提高自己，就算没有达到自己想要的目录，但是过程中也收获了一些别的东西，只不过花的时间会相对多一些。当然上面说的改PaddleOCR的源码也是给自己留下的新问题，业余的时间会慢慢地接着填坑。这里面封装的透视变换代码还是会继续上传。

源码地址

https://github.com/Vaccae/OpenCVDemoCpp.git

GitHub上不去的朋友，可以击下方的原文链接跳转到码云的地址，关注【微卡智享】公众号，回复【源码】可以下载我的所有开源项目。

完

扫描二维码

获取更多精彩

微卡智享

以上是关于PaddleOCR C++学习笔记的主要内容，如果未能解决你的问题，请参考以下文章