Tesseract OCR大量文件
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Tesseract OCR大量文件相关的知识,希望对你有一定的参考价值。
我有大约135000个.TIF
文件(1.2KB到1.4KB)坐在我的硬盘上。我需要从这些文件中提取文本。如果我把tesseract
作为一个cron工作,我最多每小时500到600。任何人都可以建议我的策略,这样我每分钟至少可以得到500个?
更新:
下面是我执行@Mark提供的建议后的代码,我似乎每分钟超过20个文件。
#!/bin/bash
cd /mnt/ramdisk/input
function tess()
{
if [ -f /mnt/ramdisk/output/$2.txt ]
then
echo skipping $2
return
fi
tesseract --tessdata-dir /mnt/ramdisk/tessdata -l eng+kan $1 /mnt/ramdisk/output/$2 > /dev/null 2>&1
}
export -f tess
find . -name *.tif -print0 | parallel -0 -j100 --progress tess {/} {/.}
你需要GNU Parallel。在这里,我在iMac上以37s处理500个TIF文件,每个3kB。通过比较,如果在连续的for
循环中完成,则相同的处理需要160s。
基本命令如下所示:
parallel --bar 'tesseract {} {.} > /dev/null 2>&1' ::: *.tif
这将显示进度条并使用您计算机上的所有可用内核。这是在行动:
如果你想在没有实际做任何事情的情况下看到它会做什么,请使用parallel --dry-run
。
由于你有135,000个文件,它可能会溢出你的命令行长度 - 你可以像这样检查sysctl
:
sysctl -a kern.argmax
kern.argmax: 262144
因此,您需要在其stdin
上将文件名泵入GNU Parallel并将它们与空字符分开,这样您就不会遇到空格问题:
find . -iname *.tif -print0 | parallel -0 --bar 'tesseract {} {.} > /dev/null 2>&1'
如果您正在处理大量文件,则可能需要考虑被中断和重新启动的可能性。您可以将mv
每个TIF
文件在处理到一个名为processed
的子目录后,以便在重新启动时不会再次完成,或者您可以在处理任何txt
之前测试相应的TIF
文件的存在,如下所示:
#!/bin/bash
doit() {
if [ -f "${2}.txt" ]; then
echo Skipping $1...
return
fi
tesseract "$1" "$2" > /dev/null 2>&1
}
export -f doit
time parallel --bar doit {} {.} ::: *.tif
如果你连续两次运行,你会看到它第二次接近瞬时,因为所有处理都是第一次完成。
如果你有数百万个文件,你可以考虑并行使用多台机器,所以只需确保你有网络中每台机器的ssh
登录,然后运行4台机器,包括localhost,如下所示:
parallel -S :,remote1,remote2,remote3 ...
其中:
是您运行的机器的简写。
以上是关于Tesseract OCR大量文件的主要内容,如果未能解决你的问题,请参考以下文章
UnicodeDecodeError 与 Python 中的 Tesseract OCR
Tesseract OCR:如何找到每个返回字符的读取错误大小?