在 CentOS 6 上安装 Tesseract-OCR

Posted

技术标签:

【中文标题】在 CentOS 6 上安装 Tesseract-OCR【英文标题】:Installing Tesseract-OCR on CentOS 6 【发布时间】:2014-07-10 15:18:30 【问题描述】:

我正在尝试在我的服务器上安装 Tesseract-OCR,但是当我安装所有我认为正确的存储库时。当我尝试安装它时,找不到包

我尝试添加 rpmforge 但无济于事。以前做过或熟悉通过 repos 添加和搜索的人有什么想法吗?

【问题讨论】:

【参考方案1】:

我使用了这些在 Centos 中正常工作的指令

从 Centos 中的源安装 Tesseract OCR 库

下载 Leptonica 和 Teseract 源代码:

$ wget http://www.leptonica.org/source/leptonica-1.69.tar.gz
$ wget https://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz

配置、编译、安装库:

 $ tar xzvf leptonica-1.69.tar.gz      
 $ cd leptonica-1.69      
 $ ./configure
 $ make
 $ sudo make install

 $ tar xzf tesseract-ocr-3.02.02.tar.gz
 $ cd tesseract-3.01
 $ ./autogen.sh
 $ ./configure
 $ make
 $ sudo make install
 $ sudo ldconfig

下载语言(英文)并复制到 tessdata 文件夹:

$ wget http://tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.eng.tar.gz       
$ tar xzf tesseract-ocr-3.02.eng.tar.gz       
$ sudo cp tesseract-ocr/tessdata/* /usr/local/share/tessdata

并享受它;)

【讨论】:

在 redhad linux 中得到这个 ./configure $ make $ sudo make install configure: WARNING: you should use --build, --host, --target configure: WARNING: invalid host type: $ configure :警告:您应该使用--build,--host,--target 配置:警告:您应该使用--build,--host,--target 配置:警告:无效的主机类型:$ 检查构建系统类型.. . 无效配置$': machine $' 无法识别 configure: error: /bin/sh config/config.sub $ failed 链接tesseract-ocr.googlecode.com/files/tesseract-ocr-3.02.02.tar.gz和tesseract-ocr.googlecode.com/files/…给404 对于 Tesseract 发布链接,您可以使用此页面:github.com/tesseract-ocr/tesseract/releases 只是一个补充,找到更新的二进制文件@ --leptonica.org/download.html leptonica-1.76.0.tar.gz github.com/tesseract-ocr/tesseract/releases tesseract-4.0.0-beta.3.tar.gz【参考方案2】:

我建议在这里尝试从 rpm 安装:http://pkgs.org/download/tesseract 还有几个依赖项:libpng-devel、libjpeg-devel、libtiff-devel、zlib 和 leptonica。 最后 2 个也可以在 RPM 网站上找到

【讨论】:

【参考方案3】:

我编写了一个 bash 脚本来在 Centos 7 上安装 Tesseract 3.05。它会获取并安装所有依赖项,还安装英语、印地语、孟加拉语和泰语的语言文件。

GitHub 上提供的代码

https://github.com/EisenVault/install-tesseract-redhat-centos

希望这会有所帮助。

【讨论】:

【参考方案4】:

这对我有用:

/usr/bin/yum --enablerepo epel-testing install tesseract.x86_64 tesseract-langpack-fra.noarch

tesseract 不在 epel 存储库中,但在 epel-testing 存储库中,默认情况下不会激活女巫。

【讨论】:

【参考方案5】:

从源代码安装 Tesseract OCR 库(于 2018 年 7 月 14 日更新)

下载 Leptonica 和 Teseract 来源:

$ wget http://www.leptonica.com/source/leptonica-1.76.0.tar.gz

$ wget https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-3.02.02.tar.gz

配置、编译、安装 Leptonica:

$ tar xzvf leptonica-1.76.0.tar.gz
$ cd leptonica-1.76.0
$ ./configure & make & sudo make install

配置、编译、安装 Tesseract:

$ tar xzf tesseract-ocr-3.02.02.tar.gz
$ cd tesseract-ocr
$ ./autogen.sh & ./configure & make & sudo make install & sudo ldconfig

下载语言文件:

我在这里下载英文文件(eng.traineddata)。您可以在此处查看语言文件的完整列表并根据需要下载。 https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-302

下载语言(英文)并复制到 tessdata 文件夹:

$ wget https://sourceforge.net/projects/tesseract-ocr-alt/files/tesseract-ocr-3.02.eng.tar.gz
$ tar xzf tesseract-ocr-3.02.eng.tar.gz
$ sudo cp tesseract-ocr/tessdata/* /usr/local/share/tessdata

现在您的 Tesseract OCR 已安装并可以使用了! 示例:

$tesseract /path/to/input/test.jpg /path/to/output/abc.txt -l eng

享受!!!

【讨论】:

我运行了所有命令,但完成后我运行查看 tesseract 版本 (tesseract -v) 它显示 bash: tesseract: command not found @Neeraj Kumar 您是否成功完成了所有这些步骤且没有任何错误: 1. tar xzf tesseract-ocr-3.02.02.tar.gz 2. cd tesseract-ocr 3 ./autogen.sh & ./configure & make & sudo make install & sudo ldconfig【参考方案6】:

enter image description here

yum install --nogpgcheck tesseract

安装后测试输入以下命令: tesseract --version

【讨论】:

以上是关于在 CentOS 6 上安装 Tesseract-OCR的主要内容,如果未能解决你的问题,请参考以下文章

tesseract Centos7 安装

tesseract Centos7 安装

docker中基于centos7.3搭建tesseract5环境以及制作镜像

docker中基于centos7.3搭建tesseract5环境以及制作镜像

centos7下php使用tesseract

[python] python3.6 安装 pytesseract 出错