显式设置用于 Tesseract-OCR 识别的字体
Posted
技术标签:
【中文标题】显式设置用于 Tesseract-OCR 识别的字体【英文标题】:Explicitly set the font to be used for recognition by Tesseract-OCR 【发布时间】:2012-10-20 16:29:33 【问题描述】:我的文档在整个文档中只使用一种字体。不同的文档可能有不同的字体,但我知道哪个文档使用哪个字体。
是否有一个选项可以明确告诉 Tesseract-OCR 在识别给定图像期间使用哪种字体?
【问题讨论】:
为了帮助调试,您可以将tessedit_debug_fonts
设置为 1 以确定 tesseract 识别的方式和字体
【参考方案1】:
不,我认为 Tesseract 不支持这样的选项。您可以做的是针对一种特定字体进行训练,然后在识别文档期间指定该训练数据。
【讨论】:
以上是关于显式设置用于 Tesseract-OCR 识别的字体的主要内容,如果未能解决你的问题,请参考以下文章
pytesseract+Tesseract-OCR图片文字识别