如何定义 tesseract 用于识别(而不是训练)的字体类型?

Posted

技术标签:

【中文标题】如何定义 tesseract 用于识别(而不是训练)的字体类型?【英文标题】:How can I define the font type for tesseract to use in recognition (not in training)? 【发布时间】:2014-06-18 17:43:51 【问题描述】:

对于可下载的英文数据集我做

cat tessdata/eng.* | egrep -o ".*ttf" | sort -u

并获取在英语语言训练中使用的所有字体的列表

Andale_Mono.ttf
Arial_Black.ttf
Arial_Bold.ttf
Arial.ttf
buttf
Comic_Sans_MS_Bold.ttf
Comic_Sans_MS.ttf
Courier_New_Bold.ttf
Courier_New.ttf
Georgia_Bold.ttf
Georgia.ttf
Gottf
Impact.ttf
Times_New_Roman_Bold.ttf
Times_New_Roman.ttf
Trebuchet_MS_Bold.ttf
Trebuchet_MS.ttf
ttf
Verdana_Bold.ttf
Verdana.ttf

现在我想识别我已经知道字体类型的文本,所以我想限制识别。我试过了:

api.SetVariable("classify_font_name", "Arial_Bold.ttf");

但我没有看到更好的结果。有人可以告诉我该怎么做,或者是否有可能?

【问题讨论】:

【参考方案1】:

您可以使用LTRResultIterator 类及其WordFontAttributes 方法来获取单词或字符级别的结果的字体信息。获得字体属性后,您可以根据特定的字体名称标准过滤输出文本。见Tesseract API examples。

【讨论】:

问题是如何选择特定字体进行识别并仅使用该单一字体的训练数据。 我误读了这个问题。见***.com/questions/13154150/…

以上是关于如何定义 tesseract 用于识别(而不是训练)的字体类型?的主要内容,如果未能解决你的问题,请参考以下文章

训练自己的 Tesseract LSTM模型用于识别验证码

训练自己的 Tesseract LSTM模型用于识别验证码

Tesseract-OCR-v5.0中文识别,训练自定义字库,提高图片的识别效果

通过训练 tesseract 获得更好的识别结果

如何为 Tesseract 4.1.0 创建训练数据文件

训练 Tesseract 3 从燃气表的真实图像中识别数字