Windows tesseract-OCR 的安装和简单测试

Posted Love丶伊卡洛斯

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Windows tesseract-OCR 的安装和简单测试相关的知识,希望对你有一定的参考价值。

前言

本机操作系统:win10 企业版
参考文章:
tesseract 安装及使用
Win10下安装CMake3.14.2以及CMake使用教程
64位OCR:Tesseract4.1+leptonica1.74编译安装步骤详解

tesseract

tesseract-ocr下载地址:https://digi.bib.uni-mannheim.de/tesseract/
我这安装的tesseract-ocr-w64-setup-v5.0.0-alpha.20210811.exe,这个版本
安装的常规下一步 同意操作,组件有脚本和语言自选,这2块下载比较慢,就很尴尬

安装过程也一直报错,一直重试
安装完成后就搞定了
查看版本信息 .\\tesseract.exe -v

测试车牌识别,传入图片路径 存储文件路径 .\\tesseract.exe card_img0.jpg result,中文识别结果不对


查看help说明,使用 -l加载语言

语言包数据路径在 tessdata

换上中文库后,.\\tesseract.exe card_img0.jpg result -l chi_sim,虽然还是错了,不过倒是个中文了

测试了很多显示场景的图片发现,识别情况并不乐观,经常会有空结果的情况,就很dt。








不难发现,只要稍微歪扭或者模糊下,识别就比较困难了。

leptonica(安装失败)

本来看到其他教程说是需要安装tesseract-OCR的依赖leptonica,然后测试发现tesseract-OCR安装后,自带了leptonica,这就很省事了。
参考:64位OCR:Tesseract4.1+leptonica1.74编译安装步骤详解

下载并解压

官网下载:http://www.leptonica.org/download.html

我下载的1.82.0版本,下载完后解压,直接打开README看看说明

Windows下的安装说明如下

用Visual Studio构建

我这使用的是VS2019

1、安装Cmake

参考:Win10下安装CMake3.14.2以及CMake使用教程
这套娃行为让人十分难受
官网下载:https://cmake.org/download/
我这采用msi安装包版本方便,zip包需要自己配置环境变量等,自行选择

同样还是下一步和同意,环境变量配置我这选择所有用户(多用户都可以用,避免不必要的麻烦)

改个安装路径,然后冲就完事了


2、下载SW并配置环境变量

根据说明需要先下载 SW( https://software-network.org/client/

解压后是一个sw.exe文件,将他移动到你喜欢的路径

打开“计算机”的属性

高级系统设置

“高级”-》“环境变量”


填入你的路径,然后确定*3


win+R,输入 cmd,打开命令行,输入 命令 sw -help,打印相关帮助文档说明配置成功。

3、编译安装leptonica

采用网上教程

参考:64位OCR:Tesseract4.1+leptonica1.74编译安装步骤详解
使用我们前面下载的Cmake工具,进行编译


出现报错,我们看下下方的日志信息

不能找到sw,其路径不对,需要我们改成自己的路径

修改环境变量,追加sw的路径 末尾追加你的路径 D:\\sw;(记得有个;


改好后重新“Configure”,已经找到了sw程序,并开始下载相关数据(过程依然十分漫长)

再次报错

下载出错,恢复sw路径后,继续“Configure

按照官网做法报错失败

cmd切换到leptonica的目录下,运行 sw setup

创建build文件夹,使用命令 mkdir build

切换进build文件夹,使用 cmake ..,会自动检查本地VS环境

很遗憾 ,下载失败了

以上是关于Windows tesseract-OCR 的安装和简单测试的主要内容,如果未能解决你的问题,请参考以下文章

tesseract-ocr,tesseract,pytesseract在windows下怎么安装

python tesseract-ocr 基础验证码识别功能(Windows)

windows下tesseract-ocr的安装及使用

Windows tesseract-OCR 的安装和简单测试

Windows tesseract-OCR 的安装和简单测试

windows vs 编译tesseract-ocr