从python中的图像中提取希伯来语文本
Posted
技术标签:
【中文标题】从python中的图像中提取希伯来语文本【英文标题】:Extracting Hebrew text from image in python 【发布时间】:2018-12-24 16:37:06 【问题描述】:我想从图像中提取希伯来语文本。
我尝试过使用 pytesseract,但它会混淆一些字母(例如 ' 而不是 י 或 נ 而不是 כ)
我尝试对图像进行一些操作(例如调整大小、去除噪点和二值化),这有一点帮助,但仍然有很多错误。
我花了几个小时寻找更好的文本提取工具,但找不到。
这是我的问题:
A) 有没有我可能错过的工具?
B) 如果没有,创建我自己的步骤是什么?
提前致谢, 阿米猜
【问题讨论】:
【参考方案1】:选择正确的 OCR 可能是一件困难的事情,但您似乎已经走在正确的轨道上(如 this *** 帖子中所见)。
一般来说,如果您对 Tesseract 的质量不满意,您似乎(大部分)不走运;从我读到的,似乎在 OCROpus,尽管这似乎不如 PyTesseract 方法那么简单。 此外,深入了解GitHub repository of Tesseract 发现有一个基于 LSTM 的 4.0 版本正在积极开发中,可能会为您带来更好的结果。我不完全了解 PyTesseract 所调用的 Tesseract 版本,但它可能值得研究,因为替换 Tesseract 可能比认为自己进入一个全新的环境更容易。
PS:至于“如何构建自己的 OCR”这个问题,我强烈反对。仅仅收集所有数据并正确掌握基础知识将花费您大量的精力,而且通常不值得您花时间;如果你得到一些有用的东西,它可能仍然比任何提供的库更糟糕。
【讨论】:
以上是关于从python中的图像中提取希伯来语文本的主要内容,如果未能解决你的问题,请参考以下文章