如何一次运行多种语言的 tesseract?
Posted
技术标签:
【中文标题】如何一次运行多种语言的 tesseract?【英文标题】:How can I run tesseract with multiple languages one time? 【发布时间】:2014-08-14 07:28:11 【问题描述】:我必须分析包含英文和日文文本的图像。当我默认运行 tesseract (-l eng
) 时,一些日文字符会丢失。否则,如果我使用日语 (-l jpn
) 运行 tesseract,则会丢失一些英文字符(例如电子邮件)。
如何运行一个同时识别英文和日文字符的进程?
【问题讨论】:
希望这会有所帮助:github.com/rmtheis/tess-two/issues/28 见***.com/questions/16508796/… 【参考方案1】:从 tesseract 3.02 开始,可以为 -l 参数指定多种语言。
-l lang 要使用的语言。如果未指定,则假定为英语。可以指定多种语言,用加号分隔。 Tesseract 使用 3 个字符的 ISO 639-2 语言代码。
一个例子:
tesseract myscan.png out -l deu+eng
【讨论】:
但是对精度有什么影响呢?如果我没有指定另一种语言,是否会有一些英语单词错误的风险?如果我不知道文档的语言并选择十种语言怎么办? tesseract 是否只是在整个文本中尝试所有语言,然后根据每种语言的字典保留看起来更可能正确的单词?【参考方案2】:试试这个:
custom_config = r'-l eng+jpn --psm 6'
txt = pytesseract.image_to_string(img, config=custom_config)
from langdetect import detect_langs
detect_langs(txt)
注意:您必须使用以下方法安装 langdetect:
pip install langdetect
【讨论】:
以上是关于如何一次运行多种语言的 tesseract?的主要内容,如果未能解决你的问题,请参考以下文章
如何强制 tesseract 不使用 TESSDATA_PREFIX
如何使用 python-tesseract 获取 Hocr 输出
tesseract-ocr,tesseract,pytesseract在windows下怎么安装
当 minifyenabled 为 true 时,Tesseract 错误 java.lang.NoSuchFieldError