在 CentOS 6 上安装 Tesseract-OCR
Posted
技术标签:
【中文标题】在 CentOS 6 上安装 Tesseract-OCR【英文标题】:Installing Tesseract-OCR on CentOS 6 【发布时间】:2014-07-10 15:18:30 【问题描述】:我正在尝试在我的服务器上安装 Tesseract-OCR,但是当我安装所有我认为正确的存储库时。当我尝试安装它时,找不到包
我尝试添加 rpmforge 但无济于事。以前做过或熟悉通过 repos 添加和搜索的人有什么想法吗?
【问题讨论】:
【参考方案1】:我使用了这些在 Centos 中正常工作的指令
从 Centos 中的源安装 Tesseract OCR 库
下载 Leptonica 和 Teseract 源代码:
$ wget http://www.leptonica.org/source/leptonica-1.69.tar.gz
$ wget https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz
配置、编译、安装库:
$ tar xzvf leptonica-1.69.tar.gz
$ cd leptonica-1.69
$ ./configure
$ make
$ sudo make install
$ tar xzf tesseract-ocr-3.02.02.tar.gz
$ cd tesseract-3.01
$ ./autogen.sh
$ ./configure
$ make
$ sudo make install
$ sudo ldconfig
下载语言(英文)并复制到 tessdata 文件夹:
$ wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz
$ tar xzf tesseract-ocr-3.02.eng.tar.gz
$ sudo cp tesseract-ocr/tessdata/* /usr/local/share/tessdata
并享受它;)
【讨论】:
在 redhad linux 中得到这个 ./configure $ make $ sudo make install configure: WARNING: you should use --build, --host, --target configure: WARNING: invalid host type: $ configure :警告:您应该使用--build,--host,--target 配置:警告:您应该使用--build,--host,--target 配置:警告:无效的主机类型:$ 检查构建系统类型.. . 无效配置$': machine
$' 无法识别 configure: error: /bin/sh config/config.sub $ failed
链接tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz和tesseract-ocr.googlecode.com/files/…给404
对于 Tesseract 发布链接,您可以使用此页面:github.com/tesseract-ocr/tesseract/releases
只是一个补充,找到更新的二进制文件@ --leptonica.org/download.html leptonica-1.76.0.tar.gz github.com/tesseract-ocr/tesseract/releases tesseract-4.0.0-beta.3.tar.gz【参考方案2】:
我建议在这里尝试从 rpm 安装:http://pkgs.org/download/tesseract 还有几个依赖项:libpng-devel、libjpeg-devel、libtiff-devel、zlib 和 leptonica。 最后 2 个也可以在 RPM 网站上找到
【讨论】:
【参考方案3】:我编写了一个 bash 脚本来在 Centos 7 上安装 Tesseract 3.05。它会获取并安装所有依赖项,还安装英语、印地语、孟加拉语和泰语的语言文件。
GitHub 上提供的代码
https://github.com/EisenVault/install-tesseract-redhat-centos
希望这会有所帮助。
【讨论】:
【参考方案4】:这对我有用:
/usr/bin/yum --enablerepo epel-testing install tesseract.x86_64 tesseract-langpack-fra.noarch
tesseract 不在 epel 存储库中,但在 epel-testing 存储库中,默认情况下不会激活女巫。
【讨论】:
【参考方案5】:从源代码安装 Tesseract OCR 库(于 2018 年 7 月 14 日更新)
下载 Leptonica 和 Teseract 来源:
$ wget http://www.leptonica.com/source/leptonica-1.76.0.tar.gz
$ wget https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-3.02.02.tar.gz
配置、编译、安装 Leptonica:
$ tar xzvf leptonica-1.76.0.tar.gz
$ cd leptonica-1.76.0
$ ./configure & make & sudo make install
配置、编译、安装 Tesseract:
$ tar xzf tesseract-ocr-3.02.02.tar.gz
$ cd tesseract-ocr
$ ./autogen.sh & ./configure & make & sudo make install & sudo ldconfig
下载语言文件:
我在这里下载英文文件(eng.traineddata)。您可以在此处查看语言文件的完整列表并根据需要下载。 https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-302
下载语言(英文)并复制到 tessdata 文件夹:
$ wget https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-3.02.eng.tar.gz
$ tar xzf tesseract-ocr-3.02.eng.tar.gz
$ sudo cp tesseract-ocr/tessdata/* /usr/local/share/tessdata
现在您的 Tesseract OCR 已安装并可以使用了! 示例:
$tesseract /path/to/input/test.jpg /path/to/output/abc.txt -l eng
享受!!!
【讨论】:
我运行了所有命令,但完成后我运行查看 tesseract 版本 (tesseract -v) 它显示 bash: tesseract: command not found @Neeraj Kumar 您是否成功完成了所有这些步骤且没有任何错误: 1. tar xzf tesseract-ocr-3.02.02.tar.gz 2. cd tesseract-ocr 3 ./autogen.sh & ./configure & make & sudo make install & sudo ldconfig【参考方案6】:enter image description here
yum install --nogpgcheck tesseract
安装后测试输入以下命令: tesseract --version
【讨论】:
以上是关于在 CentOS 6 上安装 Tesseract-OCR的主要内容,如果未能解决你的问题,请参考以下文章
docker中基于centos7.3搭建tesseract5环境以及制作镜像