tesseract3.02.02中文训练 使用jTessBoxEditor 打开BOX文件中文乱码
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了tesseract3.02.02中文训练 使用jTessBoxEditor 打开BOX文件中文乱码相关的知识,希望对你有一定的参考价值。
使用jTessBoxEditor 打开BOX文件中文乱码,不能输入中文,汉字,乱码;生成的BOX文件对中文也是支持的不是很好,怎么解决?
参考技术A 请改用EXCEL2003中文版如实在实在实在不能改,那你要费事了就是去别的机器找中文的FONT文件,一个一个的考到本机WINDOWS的FONT目录下如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract
【中文标题】如何从图像生成 tiff/box 文件以在 Windows 中训练 Tesseract【英文标题】:How to generate a tiff/box file from an image to train Tesseract in Windows 【发布时间】:2015-10-23 10:35:58 【问题描述】:我正在尝试在 Windows 中训练 Tesseract,为此我需要一对 tiff/box 文件,我正在尝试使用 jTessBoxEditor 创建它,但它不接受图像作为输入。我也试过 boxFactory 但它不能正常运行。有谁知道从图像创建配对的最佳工具是什么?
谢谢
【问题讨论】:
【参考方案1】:如果你有 jTessBoxEditor,那么你就有 Tesseract bin 文件。转到 jTessBoxEditor 的 tesseract-ocr 子文件夹并运行以下命令:
tesseract.exe D:\testocr\TestImage.tif D:\testocr\TestImage batch.nochop makebox
它应该生成文件D:\testocr\TestImage.box。 然后在 jTessBoxEditor 中,转到 Box Editor 选项卡并打开您的图像。 box文件会自动加载,您可以检查是否一切正常并纠正可能的错误。
【讨论】:
我试过了,但它对我不起作用。它说打开数据文件时出错 C:\Program Files\Tesseract-OCR\eng.traineddata 请确保将 TESSDATA_PREFIX 环境变量设置为您的“tessdata”目录。加载语言 'eng' 失败 Tesseract 无法加载任何语言!无法初始化 tesseract。【参考方案2】:我遇到了同样的问题,无法使用 jTessBoxEditor 正确打开图像以使用他们的盒子。我意识到一个重要的组成部分是.tif
图像的名称和.box
文件的名称必须相同,除了不同的扩展名。没有这个,jTessBoxEditor 将无法知道哪个盒子文件与哪个图像一起使用。因此,使用上面的 darkpotpot 建议的语法,然后确保两个文件名匹配,然后单击 jTessBoxEditor 的 Box Editor 选项卡中的“打开”按钮应该可以工作。
【讨论】:
以上是关于tesseract3.02.02中文训练 使用jTessBoxEditor 打开BOX文件中文乱码的主要内容,如果未能解决你的问题,请参考以下文章
JT400 - IBMi 机器拒绝 JDBC 连接,但在 Windows 机器上工作