使用 ImageMagick 和 'textcleaner' 为 OCR 清理图像
Posted
技术标签:
【中文标题】使用 ImageMagick 和 \'textcleaner\' 为 OCR 清理图像【英文标题】:Cleaning up an image for OCR with ImageMagick and 'textcleaner'使用 ImageMagick 和 'textcleaner' 为 OCR 清理图像 【发布时间】:2015-07-26 15:01:03 【问题描述】:我想为使用 tesseract 的 OCR 准备以下图像:
目标是清理图像并去除所有噪点。
我正在使用 textcleaner
脚本,该脚本使用带有以下参数的 ImageMagick:
./textcleaner -g -e normalize -f 30 -o 12 -s 2 original.jpg output.jpg
输出仍然不是很干净:
我尝试了各种参数的变化,但没有运气。 有人有想法吗?
【问题讨论】:
【参考方案1】:如果您转换为 JPEG,您将始终拥有您所看到的伪像类型。
这是 JPEG 压缩的典型“功能”。 JPEG 不适合显示清晰线条的图像,图像不同区域之间的颜色统一,仅使用很少的颜色。这适用于黑白文本。 JPEG 仅适用于典型照片,具有许多不同的颜色和阴影...
如果您使用 PNG 作为输出格式,您的问题很可能会完全解决。下图演示了这一点。我使用与上一个示例命令相同的参数生成它,但使用 PNG 作为输出格式:
textcleaner -g -e normalize -f 30 -o 12 -s 2 \
http://i.stack.imgur.com/ficx7.jpg \
out.png
这是一个类似的放大输出:
如果您使用 textcleaner 脚本的参数,您很可能会进一步改善输出。但那是你的工作...... :-)
【讨论】:
非常感谢,只是将 jpg 转换成 png 对我来说有很大的不同,非常感谢,知道我的 tesseract 脚本要好得多!以上是关于使用 ImageMagick 和 'textcleaner' 为 OCR 清理图像的主要内容,如果未能解决你的问题,请参考以下文章
使用 ImageMagick 和 'textcleaner' 为 OCR 清理图像
将 ImageMagick 和 GhostScript 与 nuget 一起使用