为啥我在 Tesseract 中收到“tiff page 1 not found”Lebtonica 警告?

Posted

技术标签:

【中文标题】为啥我在 Tesseract 中收到“tiff page 1 not found”Lebtonica 警告?【英文标题】:Why am I getting "tiff page 1 not found" Lebtonica warning in Tesseract?为什么我在 Tesseract 中收到“tiff page 1 not found”Lebtonica 警告? 【发布时间】:2016-01-21 15:13:35 【问题描述】:

我刚开始使用Tesseract。

我正在按照here 中描述的说明进行操作。

我已经创建了一个这样的测试图像:

training/text2image --text=test.txt --outputbase=eng.Arial.exp0 --font='Arial' --fonts_dir=/usr/share/fonts

现在我想像下面这样训练 Tesseract:

tesseract eng.Arial.exp0.tif eng.Arial.exp0 box.train

这是我的输出:

Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Page 1
APPLY_BOXES:
   Boxes read from boxfile:     112
   Found 112 good blobs.
Generated training data for 21 words
Warning in pixReadMemTiff: tiff page 1 not found

这可以防止创建fontfile.tr 文件。我尝试忽略警告继续,但是在创建字符集时,我得到了一个很棒的内容:

unicharset_extractor lang.fontname.exp0.box

"58
NULL 0 NULL 0
Joined 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0     # Joined [4a 6f 69 6e 65 64 ]
|Broken|0|1 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0    # Broken
T 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0  # T [54 ]
h 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0  # h [68 ]
e 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0  # e [65 ]
( 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0  # ( [28 ]
q 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0  # q [71 ]
u 0 0,255,0,255,0,0,0,0,0,0 NULL 0 0 0  # u [75 ]
..."

这是我正在使用的版本:

tesseract 3.04.00
 leptonica-1.72
  libjpeg 8d (libjpeg-turbo 1.3.0) : libpng 1.2.50 : libtiff 4.0.3 : zlib 1.2.8

知道为什么会这样吗?

【问题讨论】:

【参考方案1】:

这可能是一个错误,我正在使用 v4.00.00alpha 并且我得到了

Tesseract Open Source OCR Engine v4.00.00alpha with Leptonica
Page 1
APPLY_BOXES:
   Boxes read from boxfile:     100
   Found 100 good blobs.
Generated training data for 21 words

【讨论】:

以上是关于为啥我在 Tesseract 中收到“tiff page 1 not found”Lebtonica 警告?的主要内容,如果未能解决你的问题,请参考以下文章

为啥 tesseract 无法从这个简单的图像中读取文本?

为啥 tesseract 不会在图像中找到这个简单的文本?

为啥 Tesseract OCR 库(iOS)根本无法识别文本?

为啥我在 Selenium 中收到 AssertionError?

为啥我在通知中收到弃用警告..?

为啥我在 AngularJs 帖子中收到 400 个错误请求?