如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract

Posted

技术标签:

【中文标题】如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract【英文标题】:How to generate a tiff/box file from an image to train Tesseract in Windows 【发布时间】:2015-10-23 10:35:58 【问题描述】:

我正在尝试在 Windows 中训练 Tesseract,为此我需要一对 tiff/box 文件,我正在尝试使用 jTessBoxEditor 创建它,但它不接受图像作为输入。我也试过 boxFactory 但它不能正常运行。有谁知道从图像创建配对的最佳工具是什么?

谢谢

【问题讨论】:

【参考方案1】:

如果你有 jTessBoxEditor,那么你就有 Tesseract bin 文件。转到 jTessBoxEditor 的 tesseract-ocr 子文件夹并运行以下命令:

tesseract.exe D:\testocr\TestImage.tif D:\testocr\TestImage batch.nochop makebox

它应该生成文件D:\testocr\TestImage.box。 然后在 jTessBoxEditor 中,转到 Box Editor 选项卡并打开您的图像。 box文件会自动加载,您可以检查是否一切正常并纠正可能的错误。

【讨论】:

我试过了,但它对我不起作用。它说打开数据文件时出错 C:\Program Files\Tesseract-OCR\eng.traineddata 请确保将 TESSDATA_PREFIX 环境变量设置为您的“tessdata”目录。加载语言 'eng' 失败 Tesseract 无法加载任何语言!无法初始化 tesseract。【参考方案2】:

我遇到了同样的问题,无法使用 jTessBoxEditor 正确打开图像以使用他们的盒子。我意识到一个重要的组成部分是.tif 图像的名称和.box 文件的名称必须相同,除了不同的扩展名。没有这个,jTessBoxEditor 将无法知道哪个盒子文件与哪个图像一起使用。因此,使用上面的 darkpotpot 建议的语法,然后确保两个文件名匹配,然后单击 jTessBoxEditor 的 Box Editor 选项卡中的“打开”按钮应该可以工作。

【讨论】:

以上是关于如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract的主要内容,如果未能解决你的问题,请参考以下文章

C 编程和 OpenCV(如何从文件中读取图像并将其加载以在 openCv 中进行进一步处理)

正方体 - 训练

如何从我的 webpack 2 配置中创建/生成/导出文件以在我的 React 代码中使用?

如何将图像从图像控件保存到文件夹 Win 8 应用程序

如何从 url 下载图像以在 Photoshop 脚本中使用(ExtendScript Toolkit)

如何从 PowerPoint 文件文件创建一组图像文件?