配置 Tesseract OCR 以读取相同字体大小的单词
Posted
技术标签:
【中文标题】配置 Tesseract OCR 以读取相同字体大小的单词【英文标题】:Configuring Tesseract OCR to read words of same font size 【发布时间】:2018-08-28 03:58:43 【问题描述】:我正在使用 Tesseract 3.05.01 for Windows 从包含几行的图像中提取文本。 这些线被一个圆角矩形包围。 [Image attached for reference].
Tesseract 将圆角矩形检测为开头的“C”和行尾的“>”。
这是 Tesseract 返回的内容:
The Richter scale is used for measuring the
magnitude of which natural phenomenon?
C Earthquake >
C Hurricane >
C Tsunami
我尝试在黑名单中包含“>”,但列入黑名单的符号被类似的东西取代。 所以我认为如果有一个选项只提取相似大小的字符,那么它会避免形状。
有没有办法只检测字体大小/高度相似的行?或 建议我解决这个问题的任何方法。
【问题讨论】:
【参考方案1】:您也许可以使用白名单而不是包含您想要拥有的所有字母的黑名单! 例如,在 tesseract.js 中是这样的:
tessedit_char_whitelist: "abcdefghijklmnop ...."
【讨论】:
以上是关于配置 Tesseract OCR 以读取相同字体大小的单词的主要内容,如果未能解决你的问题,请参考以下文章