显式设置用于 Tesseract-OCR 识别的字体

Posted

技术标签:

【中文标题】显式设置用于 Tesseract-OCR 识别的字体【英文标题】:Explicitly set the font to be used for recognition by Tesseract-OCR 【发布时间】:2012-10-20 16:29:33 【问题描述】:

我的文档在整个文档中只使用一种字体。不同的文档可能有不同的字体,但我知道哪个文档使用哪个字体。

是否有一个选项可以明确告诉 Tesseract-OCR 在识别给定图像期间使用哪种字体?

【问题讨论】:

为了帮助调试,您可以将 tessedit_debug_fonts 设置为 1 以确定 tesseract 识别的方式和字体 【参考方案1】:

不,我认为 Tesseract 不支持这样的选项。您可以做的是针对一种特定字体进行训练,然后在识别文档期间指定该训练数据。

【讨论】:

以上是关于显式设置用于 Tesseract-OCR 识别的字体的主要内容,如果未能解决你的问题,请参考以下文章

pytesseract+Tesseract-OCR图片文字识别

TransFG:用于细粒度识别的 Transformer 架构

20 行代码带你实现验证码自动识别

python+tesseract验证码识别的一点小心得

Tesseract-OCR的Training简明教程

关于Tesseract-OCR的使用,救啊该怎么处理