从python中的图像中提取希伯来语文本

Posted

技术标签:

【中文标题】从python中的图像中提取希伯来语文本【英文标题】:Extracting Hebrew text from image in python 【发布时间】:2018-12-24 16:37:06 【问题描述】:

我想从图像中提取希伯来语文本。

我尝试过使用 pytesseract,但它会混淆一些字母(例如 ' 而不是 י 或 נ 而不是 כ)

我尝试对图像进行一些操作(例如调整大小、去除噪点和二值化),这有一点帮助,但仍然有很多错误。

我花了几个小时寻找更好的文本提取工具,但找不到。

这是我的问题:

A) 有没有我可能错过的工具?

B) 如果没有,创建我自己的步骤是什么?

提前致谢, 阿米猜

【问题讨论】:

【参考方案1】:

选择正确的 OCR 可能是一件困难的事情,但您似乎已经走在正确的轨道上(如 this *** 帖子中所见)。

一般来说,如果您对 Tesseract 的质量不满意,您似乎(大部分)不走运;从我读到的,似乎在 OCROpus,尽管这似乎不如 PyTesseract 方法那么简单。 此外,深入了解GitHub repository of Tesseract 发现有一个基于 LSTM 的 4.0 版本正在积极开发中,可能会为您带来更好的结果。我不完全了解 PyTesseract 所调用的 Tesseract 版本,但它可能值得研究,因为替换 Tesseract 可能比认为自己进入一个全新的环境更容易。

PS:至于“如何构建自己的 OCR”这个问题,我强烈反对。仅仅收集所有数据并正确掌握基础知识将花费您大量的精力,而且通常不值得您花时间;如果你得到一些有用的东西,它可能仍然比任何提供的库更糟糕。

【讨论】:

以上是关于从python中的图像中提取希伯来语文本的主要内容,如果未能解决你的问题,请参考以下文章

如何从python中的图像中删除某些文本?

如何从图像中提取所需的文本部分,而不是使用 OCR 提取图像中的所有文本?

如何从图像中的表格中提取文本?

Powershell将希伯来语文本插入图像

如何从android中的jpeg图像中提取文本[关闭]

如何从图库中的图像中获取(提取)文本并搜索该文本 - Android?