如何使用tesseract ocr仅在图像中提取蓝色文本

Posted

技术标签:

【中文标题】如何使用tesseract ocr仅在图像中提取蓝色文本【英文标题】:How to extract blue color text only in image using tesseract ocr 【发布时间】:2021-09-24 11:15:26 【问题描述】:

我只想提取图像 uisng tesseract ocr 中的蓝色文本。请帮我解决这个问题。

我尝试过的基本代码:

导入 PIL.Image 导入简历 导入 pytesseract,re my_image = PIL.Image.open(r"C:\Users\sony\Desktop\Cap_sample\MicrosoftTeams-image (4).png") pytesseract.pytesseract.tesseract_cmd = (r'C:\Program Files\Tesseract-OCR\tesseract.exe') my_image_text = pytesseract.image_to_string(my_image) 打印(my_image_text)

【问题讨论】:

还提供输入图像。 【参考方案1】:

一种可能的解决方案是使用蒙版获取仅具有蓝色的图像,然后提取文本

尝试使用类似的东西

blueLower = np.array([100, 67, 0], dtype = "uint8")
blueUpper = np.array([255, 128, 50], dtype = "uint8")
blue = cv2.inRange(img, blueLower, blueUpper)

这将获得图像中蓝色所在位置的蒙版,然后可能在其上使用 tesseract。在面具上获取文字

【讨论】:

以上是关于如何使用tesseract ocr仅在图像中提取蓝色文本的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Tesseract 对图像进行 OCR

如何使用 OCR 检测图像中的下标数字?

基于Tesseract模块Python实现提取图片中的文字信息(安装+使用教程)

Tesseract OCR - 如何训练这样的图像

使用 OCR 引擎 tesseract 无法理解提取文档中的坐标

如何使用 OpenCV 从图像中提取文本行