徽标和字体的Tesseract。

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了徽标和字体的Tesseract。相关的知识,希望对你有一定的参考价值。

有一些标识需要运行OCR 。徽标一般有不同的字体。下面是一个例子。当用所有可能的psm值运行魔方时,RITZ没有被检测到。也试过用 cv2.threshold(grayImage, 120, 255, cv2.THRESH_BINARY) 还是检测不到R字。谁能告诉我,对于这些奇怪的字体,应该用什么技术来解决。 (我用的是python)

RITZ logo enter image description here

答案

Tessaract有一个问题,它不能检测复杂的或手写的字符。我们可以用tesseract来检测简单的打印字符。对于复杂的或手写的,你可以尝试在数据集下训练的CNN或KNN算法(chars74k, A-Z Handwritting)

以上是关于徽标和字体的Tesseract。的主要内容,如果未能解决你的问题,请参考以下文章

“添加”新字体到 Tesseract eng.traineddata

使用 Tesseract-OCR 获取已识别字符的字体

可以为非字体符号训练 tesseract 吗?

Drupal标题徽标和网站名称片段页面.tpl.php

显式设置用于 Tesseract-OCR 识别的字体

配置 Tesseract OCR 以读取相同字体大小的单词