配置 Tesseract OCR 以读取相同字体大小的单词

Posted 2023-02-19

技术标签:

【中文标题】配置 Tesseract OCR 以读取相同字体大小的单词【英文标题】：Configuring Tesseract OCR to read words of same font size 【发布时间】：2018-08-28 03:58:43 【问题描述】：

我正在使用 Tesseract 3.05.01 for Windows 从包含几行的图像中提取文本。这些线被一个圆角矩形包围。 [Image attached for reference].

Tesseract 将圆角矩形检测为开头的“C”和行尾的“>”。

这是 Tesseract 返回的内容：

The Richter scale is used for measuring the
magnitude of which natural phenomenon?

C Earthquake >
C Hurricane >
C Tsunami

我尝试在黑名单中包含“>”，但列入黑名单的符号被类似的东西取代。所以我认为如果有一个选项只提取相似大小的字符，那么它会避免形状。

有没有办法只检测字体大小/高度相似的行？或 建议我解决这个问题的任何方法。

【问题讨论】：

【参考方案1】：

您也许可以使用白名单而不是包含您想要拥有的所有字母的黑名单！例如，在 tesseract.js 中是这样的：

tessedit_char_whitelist: "abcdefghijklmnop ...."

【讨论】：

以上是关于配置 Tesseract OCR 以读取相同字体大小的单词的主要内容，如果未能解决你的问题，请参考以下文章