如何 Tesseract 多个 .tif 文件?

Posted

技术标签:

【中文标题】如何 Tesseract 多个 .tif 文件?【英文标题】:How to Tesseract multiple .tif files? 【发布时间】:2021-09-04 07:38:33 【问题描述】:

这里完全是自学成才的菜鸟。我正在使用 Windows 命令提示符来运行 Tesseract-ocr。

我设法找到了正确的命令,以输出一个两层的 pdf 文件,其中包含原始扫描页面但也是可搜索的文本。

tesseract filename.tif output -l ita pdf

对我来说也很简单。 但是,如何在不手动执行的情况下对文件夹中的所有 200 多个 .tif 文件重复此操作?获得尽可能多的输出 pdf 或获得单个输出 pdf 对我来说没有区别。

感谢所有帮助我的人。

【问题讨论】:

期望的输出是什么? 200 多个单独的文件还是 1 个文件? 【参考方案1】:

同时我找到了一种方法:创建一个包含每个 .tif 文件的所有路径列表的 txt 文件(使用命令 dir/s/b *.tif > listname.txt),然后将其用作 Tesseract 的输入。

也许有更快的方法,但这行得通。

【讨论】:

以上是关于如何 Tesseract 多个 .tif 文件?的主要内容,如果未能解决你的问题,请参考以下文章

用jTessBoxEditorFX训练字库

Tesseract-OCR 训练教程

关于Tesseract的简单训练方法

如何检查多个文件夹并删除具有唯一文件名的任何文件?

Tesseract OCR大量文件

如何在 python-tesseract 中设置 tessedit_write_images?