用于读取图像内文本的最佳 Python/Ruby 库 [关闭]

Posted

技术标签:

【中文标题】用于读取图像内文本的最佳 Python/Ruby 库 [关闭]【英文标题】:Best Python/Ruby lib for reading text inside images [closed] 【发布时间】:2012-07-14 11:13:02 【问题描述】:

有人知道 python/ruby 中的一个库,可以分析图像并提取其中的文本吗?

或者一本关于图像处理等的书……

PS:文本采用各种字体和格式,但清晰,Tl;Dr:没有验证码或类似内容。

【问题讨论】:

你写的最后一行表达了什么?还是写错了? OCR for recognising handwriting in .NET 的可能重复项 @Angelbit 我指出了一个特定的重复项,但这个问题实际上是 *** 上几乎所有 OCR 问题的重复项。 对不起,我的英文很差,图片里面的文字有各种大小和格式(粗体、斜体等) @AdamMihalcin 有编辑,没有找到任何关于 ruby​​/python 的问题。 【参考方案1】:

您可以使用 OpenCV,这是一个开源计算机视觉库,它具有 Python API。它现在被认为是一个行业标准库。

OpenCV官网:http://opencv.org/

如果您需要一些OpenCV-Python 教程,请访问:opencvpython.blogspot.com

您也可以查看此 SOF:Simple Digit Recognition OCR in OpenCV-Python

除此之外,OpenCV 示例还有一些 OCR 实现。

但我建议您使用 Tesseract 进行 OCR。它是最好的开源 OCR 引擎,由 HP 开发,但现在由 Google 处理。

Tesseract 网站:https://github.com/tesseract-ocr/tesseract

tesseract 的 Python API,Pytesser:https://github.com/RobinDavid/Pytesser

同时检查这个 SOF:How do I choose between Tesseract and OpenCV?

因此您可以使用 OpenCV 对图像进行预处理并使用 Tesseract 进行 OCR。

【讨论】:

以上是关于用于读取图像内文本的最佳 Python/Ruby 库 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

从Java中的图像文件中读取文本[重复]

用于文本识别的图像预处理

使用 C# 从网站读取数据

PHP 将 GD 图像转换为用于验证码的 CSS 代码

从图像 iPhone SDK 中读取文本 [关闭]

编写Dockerfiles的最佳做法