用于读取图像内文本的最佳 Python/Ruby 库 [关闭]
Posted
技术标签:
【中文标题】用于读取图像内文本的最佳 Python/Ruby 库 [关闭]【英文标题】:Best Python/Ruby lib for reading text inside images [closed] 【发布时间】:2012-07-14 11:13:02 【问题描述】:有人知道 python/ruby 中的一个库,可以分析图像并提取其中的文本吗?
或者一本关于图像处理等的书……
PS:文本采用各种字体和格式,但清晰,Tl;Dr:没有验证码或类似内容。
【问题讨论】:
你写的最后一行表达了什么?还是写错了? OCR for recognising handwriting in .NET 的可能重复项 @Angelbit 我指出了一个特定的重复项,但这个问题实际上是 *** 上几乎所有 OCR 问题的重复项。 对不起,我的英文很差,图片里面的文字有各种大小和格式(粗体、斜体等) @AdamMihalcin 有编辑,没有找到任何关于 ruby/python 的问题。 【参考方案1】:您可以使用 OpenCV,这是一个开源计算机视觉库,它具有 Python API。它现在被认为是一个行业标准库。
OpenCV官网:http://opencv.org/
如果您需要一些OpenCV-Python 教程,请访问:opencvpython.blogspot.com
您也可以查看此 SOF:Simple Digit Recognition OCR in OpenCV-Python
除此之外,OpenCV 示例还有一些 OCR 实现。
但我建议您使用 Tesseract 进行 OCR。它是最好的开源 OCR 引擎,由 HP 开发,但现在由 Google 处理。
Tesseract 网站:https://github.com/tesseract-ocr/tesseract
tesseract 的 Python API,Pytesser:https://github.com/RobinDavid/Pytesser
同时检查这个 SOF:How do I choose between Tesseract and OpenCV?
因此您可以使用 OpenCV 对图像进行预处理并使用 Tesseract 进行 OCR。
【讨论】:
以上是关于用于读取图像内文本的最佳 Python/Ruby 库 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章