推荐OCR软件面对这个识别案例[关闭]

Posted

技术标签:

【中文标题】推荐OCR软件面对这个识别案例[关闭]【英文标题】:Recommendation of OCR software to face this recognition case [closed] 【发布时间】:2019-11-10 07:50:28 【问题描述】:

我必须像这样识别图片中的文字:

Image to recognise

我尝试过 Tesseract,但我对结果不是很满意。

您能否向我推荐任何可以在“图像上的文本识别”而不是“文档上的文本识别”中更准确的软件?

提前致谢

【问题讨论】:

您的问题可能与 *** 无关。 StackExchange SuperUser 可能是一个更好的组。另一方面,为什么不编辑您的问题以更详细地解释您的问题,而不仅仅是“我对结果不太满意”。 【参考方案1】:

不要期望 Tesseract 开箱即用。此图像在放入 Tesseract 之前需要进行一些工作。

我会做以下预处理:

    模糊图像以去除一些数字噪点 具有合适参数的自适应阈值 正确的图像 提供白色背景和黑色文本的颜色 这应该是简单的操作,如有必要只需反转颜色 使用正确的语言文件运行 Tesseract(我猜是意大利语?)

这些预处理步骤非常容易手动编程,但当然有很多库具有此功能。

作为起点,请参阅:Preprocessing image for Tesseract OCR with OpenCV

【讨论】:

非常感谢!!我会试试这个。但是,当您说“模糊”时,您是什么意思? P.s: 语言是西班牙语:) 在 wiki 上有一个很好的例子,展示了“模糊”对图像的作用:en.wikipedia.org/wiki/Gaussian_blur#/media/…你必须小心不要做太多。但是少量的模糊通常可以改善阈值化的结果,因为它消除了噪声。【参考方案2】:

我不知道有任何现成的软件可以在没有大量额外配置的情况下对您的特定图像进行文本提取,但您可能可以改善您的 Tesseract 结果

您可以尝试处理图像,以便 Tesseract 更容易识别它,使用 tessedit_write_images true 在 Tesseract 自动调整后查看您的图像

这可能不是最好的,因此您可以使用许多可用的库/程序自己进行调整,您的目标应该是将其转换为黑白文本图像,尽可能少的噪音

对此阅读:ImproveQuality

您也可以尝试针对您的特定数据训练 Tesseract,但这需要更多的工作和大量的训练数据,请阅读:TrainingTesseract 4.0

【讨论】:

以上是关于推荐OCR软件面对这个识别案例[关闭]的主要内容,如果未能解决你的问题,请参考以下文章

ocr文字识别软件

哪个证件文字识别软件好

如何使用迅捷OCR文字识别软件识别提取图中文字

哪个证件文字识别工具好用

迅捷OCR文字识别软件怎样快速识别图中文字

OCR文字识别软件里面的票证识别怎么操作