有用过tesseract OCR字符识别的吗?怎么识别率那么低
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了有用过tesseract OCR字符识别的吗?怎么识别率那么低相关的知识,希望对你有一定的参考价值。
识别率低是因为tesseract 想做到适应各种字体、各种分辨率,结果就造成了识别率低的尴尬局面。要想识别率高的话,可以采用abbyy finereader是ocr(光学辨识)软件。比较常用的功能为:扫描到 Word、将PDF图像、图片转换为 Word 文档或者可编辑可搜索的PDF文档,另外也支持将PDF图像转换为 Excel 文档。
OCR 识别是肯定会存在错误的,所以识别转换完成以后记得要和原文核对。 设置语言种类的话,越少识别率越高,就是说如果文件只有中文的话,那么就设置中文一种语言,不要选择其他语言,这样识别速度也会提高。 参考技术A 识别率低是因为tesseract 想做到适应各种字体、各种分辨率。要在工程中用的话,可以先用tesseract 识别,再根据错误类型二次识别。根据我的经验,tesseract 的错误还是比较有规律的 参考技术B 如果图像清晰,但识别效果差,那可能是因为图像像素不够,ReSize后再识别会明显提升识别率,我这边测试单个字符占用像素>30,字符清晰不会出错。其它答案都是有用的废话
以上是关于有用过tesseract OCR字符识别的吗?怎么识别率那么低的主要内容,如果未能解决你的问题,请参考以下文章