Tesseract SetVariable tessedit_char_whitelist 用另一种语言
Posted
技术标签:
【中文标题】Tesseract SetVariable tessedit_char_whitelist 用另一种语言【英文标题】:Tesseract SetVariable tessedit_char_whitelist in another language 【发布时间】:2013-04-23 22:54:02 【问题描述】:Tesseract setVariable 白名单适用于英语,例如我用它来识别图像中的数字和字母(不包括特殊字符 &*^%!等)
_ocr.SetVariable("tessedit_char_whitelist",
"0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ");
但我不能对泰语做同样的事情
_ocr.SetVariable("tessedit_char_whitelist","0123456789กขคงจฉ");
有什么不同的原则吗?因为这不起作用。我在输出中只收到数字,而不是所有确定的字符,tesseract 忽略了我放入白名单的所有泰文字母。
如何正确传递这个变量?
【问题讨论】:
【参考方案1】:您可能需要先使用泰语的语言包...请参阅此处的下载列表https://code.google.com/p/tesseract-ocr/downloads/list
那么您需要在代码中将“eng”替换为“tha”,以使用新的语言数据进行 OCR
【讨论】:
以上是关于Tesseract SetVariable tessedit_char_whitelist 用另一种语言的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 python tesseract 设置仅初始化参数?