配置 Tesseract OCR 以读取相同字体大小的单词

Posted

技术标签:

【中文标题】配置 Tesseract OCR 以读取相同字体大小的单词【英文标题】:Configuring Tesseract OCR to read words of same font size 【发布时间】:2018-08-28 03:58:43 【问题描述】:

我正在使用 Tesseract 3.05.01 for Windows 从包含几行的图像中提取文本。 这些线被一个圆角矩形包围。 [Image attached for reference].

Tesseract 将圆角矩形检测为开头的“C”和行尾的“>”。

这是 Tesseract 返回的内容:

The Richter scale is used for measuring the
magnitude of which natural phenomenon?

C Earthquake >
C Hurricane >
C Tsunami

我尝试在黑名单中包含“>”,但列入黑名单的符号被类似的东西取代。 所以我认为如果有一个选项只提取相似大小的字符,那么它会避免形状

有没有办法只检测字体大小/高度相似的行?建议我解决这个问题的任何方法。

【问题讨论】:

【参考方案1】:

您也许可以使用白名单而不是包含您想要拥有的所有字母的黑名单! 例如,在 tesseract.js 中是这样的:

tessedit_char_whitelist: "abcdefghijklmnop ...."

【讨论】:

以上是关于配置 Tesseract OCR 以读取相同字体大小的单词的主要内容,如果未能解决你的问题,请参考以下文章

显式设置用于 Tesseract-OCR 识别的字体

如何用三种不同的笔迹训练相同数字的tesseract-ocr?

使用 Tesseract-OCR 获取已识别字符的字体

sh Tesseract OCR培训新字体

有没有办法用小字体改进 tesseract OCR?

OCR的理想字体是什么?