Python如何图像识别?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python如何图像识别?相关的知识,希望对你有一定的参考价值。

1. 简介。

图像处理是一门应用非常广的技术,而拥有非常丰富第三方扩展库的 Python 当然不会错过这一门盛宴。PIL (Python Imaging Library)是 Python 中最常用的图像处理库,目前版本为 1.1.7,我们可以 在这里 下载学习和查找资料。

Image 类是 PIL 库中一个非常重要的类,通过这个类来创建实例可以有直接载入图像文件,读取处理过的图像和通过抓取的方法得到的图像这三种方法。

2. 使用。

导入 Image 模块。然后通过 Image 类中的 open 方法即可载入一个图像文件。如果载入文件失败,则会引起一个 IOError ;若无返回错误,则 open 函数返回一个 Image 对象。现在,我们可以通过一些对象属性来检查文件内容,即:

1 >>> import Image
2  >>> im = Image.open("j.jpg")
3  >>> print im.format, im.size, im.mode
4 JPEG (440, 330) RGB

这里有三个属性,我们逐一了解。

format : 识别图像的源格式,如果该文件不是从文件中读取的,则被置为 None 值。

size : 返回的一个元组,有两个元素,其值为象素意义上的宽和高。

mode : RGB(true color image),此外还有,L(luminance),CMTK(pre-press image)。

现在,我们可以使用一些在 Image 类中定义的方法来操作已读取的图像实例。比如,显示最新载入的图像:

1 >>>im.show()
2  >>>

输出原图:

3. 函数概貌。

3.1    Reading and Writing Images : open( infilename ) , save( outfilename )

3.2    Cutting and Pasting and Merging Images :

crop() : 从图像中提取出某个矩形大小的图像。它接收一个四元素的元组作为参数,各元素为(left, upper, right, lower),坐标系统的原点(0, 0)是左上角。

paste() : 

merge() :

1 >>> box = (100, 100, 200, 200)
2  >>> region = im.crop(box)
3  >>> region.show()
4  >>> region = region.transpose(Image.ROTATE_180)
5  >>> region.show()
6  >>> im.paste(region, box)
7  >>> im.show()

其效果图为:

旋转一幅图片:

1 def roll(image, delta):
2     "Roll an image sideways"
3
4     xsize, ysize = image.size
5
6     delta = delta % xsize
7     if delta == 0: return image
8
9     part1 = image.crop((0, 0, delta, ysize))
10     part2 = image.crop((delta, 0, xsize, ysize))
11     image.paste(part2, (0, 0, xsize-delta, ysize))
12     image.paste(part1, (xsize-delta, 0, xsize, ysize))
13
14     return image

3.3    几何变换。

3.3.1    简单的几何变换。

1 >>>out = im.resize((128, 128))                     #
2  >>>out = im.rotate(45)                             #逆时针旋转 45 度角。
3  >>>out = im.transpose(Image.FLIP_LEFT_RIGHT)       #左右对换。
4  >>>out = im.transpose(Image.FLIP_TOP_BOTTOM)       #上下对换。
5  >>>out = im.transpose(Image.ROTATE_90)             #旋转 90 度角。
6  >>>out = im.transpose(Image.ROTATE_180)            #旋转 180 度角。
7 >>>out = im.transpose(Image.ROTATE_270)            #旋转 270 度角。

各个调整之后的图像为:

图片1:

图片2:

图片3:

图片4:

3.3.2    色彩空间变换。

convert() : 该函数可以用来将图像转换为不同色彩模式。

3.3.3    图像增强。

Filters : 在 ImageFilter 模块中可以使用 filter 函数来使用模块中一系列预定义的增强滤镜。

1 >>> import ImageFilter
2 >>> imfilter = im.filter(ImageFilter.DETAIL)
3 >>> imfilter.show()

3.4    序列图像。

即我们常见到的动态图,最常见的后缀为 .gif ,另外还有 FLI / FLC 。PIL 库对这种动画格式图也提供了一些基本的支持。当我们打开这类图像文件时,PIL 自动载入图像的第一帧。我们可以使用 seek 和 tell 方法在各帧之间移动。

1 import Image
2 im.seek(1)        # skip to the second frame
3
4 try:
5     while 1:
6         im.seek( im.tell() + 1)
7         # do something to im
8 except EOFError:
9     pass

3.5    更多关于图像文件的读取。

最基本的方式:im = Image.open("filename")

类文件读取:fp = open("filename", "rb"); im = Image.open(fp)

字符串数据读取:import StringIO; im = Image.open(StringIO.StringIO(buffer))

从归档文件读取:import TarIO; fp = TarIo.TarIO("Image.tar", "Image/test/lena.ppm"); im = Image.open(fp)

基本的 PIL 目前就练习到这里。其他函数的功能可点击 这里 进一步阅读。

参考技术A 首先,先定位好问题是属于图像识别任务中的哪一类,最好上传一张植物叶子的图片。因为目前基于深度学习的卷积神经网络(CNN)确实在图像识别任务中取得很好的效果,深度学习属于机器学习,其研究的范式,或者说处理图像的步骤大体上是一致的。

1、第一步,准备好数据集,这里是指,需要知道输入、输出(视任务而定,针对你这个问题,建议使用有监督模型)是什么。你可以准备一个文件夹,里面存放好植物叶子的图像,而每张图像对应一个标签(有病/没病,或者是多类别标签,可能具体到哪一种病)。
具体实现中,会将数据集分为三个:训练集(计算模型参数)、验证集(调参,这个经常可以不需要实现划分,在python中可以用scikit-learn中的函数解决。测试集用于验证模型的效果,与前面两个的区别是,模型使用训练集和验证集时,是同时使用了输入数据和标签,而在测试阶段,模型是用输入+模型参数,得到的预测与真实标签进行对比,进而评估效果。
2、确定图像识别的任务是什么?

图像识别的任务可以分为四个:图像分类、目标检测、语义分割、实例分割,有时候是几个任务的结合。
图像分类是指以图像为输入,输出对该图像内容分类的描述,可以是多分类问题,比如猫狗识别。通过足够的训练数据(猫和狗的照片-标签,当然现在也有一系列的方法可以做小样本训练,这是细节了,这里并不敞开讲),让计算机/模型输出这张图片是猫或者狗,及其概率。当然,如果你的训练数据还有其它动物,也是可以的,那就是图像多分类问题。
目标检测指将图像或者视频中的目标与不感兴趣的部分区分开,判断是否存在目标,并确定目标的具体位置。比如,想要确定这只狗所佩戴的眼睛的位置,输入一张图片,输出眼睛的位置(可视化后可以讲目标区域框出来)。

看到这里,应该想想植物叶子诊断疾病的问题,只需要输入一整张植物叶子的图片,输出是哪种疾病,还是需要先提取叶子上某些感兴趣区域(可能是病变区域),在用病变区域的特征,对应到具体的疾病?
语义分割是当今计算机视觉领域的关键问题之一,宏观上看,语义分割是一项高层次的任务。其目的是以一些原始图像作为输入,输出具有突出显示的感兴趣的掩膜,其实质上是实现了像素级分类。对于输入图片,输出其舌头区域(注意可以是不规则的,甚至不连续的)。

而实例分割,可以说是在语义分割的基础上,在像素层面给出属于每个实例的像素。

看到这里,可以具体思考下自己的问题是对应其中的哪一类问题,或者是需要几种任务的结合。

3、实际操作
可以先通过一个简单的例子入手,先了解构建这一个框架需要准备什么。手写数字识别可以说是深度学习的入门数据集,其任务也经常作为该领域入门的案例,也可以自己在网上寻找。

opencv-python:如何识别图像中的粉红色木材?

【中文标题】opencv-python:如何识别图像中的粉红色木材?【英文标题】:opencv-python: How recognize pink wood in the image? 【发布时间】:2022-01-01 09:44:47 【问题描述】:

如何识别图片中的粉红色木材?我使用了这个代码,但我没有在图像中找到任何粉红色的小木头。

我希望如果我将这样的图像作为输入,pinkwood 的输出将被识别。

除了这个方法,你还有什么识别粉红木的建议???

输入:

预期输出(手动标记)

代码:

import numpy as np


import cv2
from cv2 import *
im = cv2.imread(imagePath)

im = cv2.bilateralFilter(im,9,75,75)
im = cv2.fastNlMeansDenoisingColored(im,None,10,10,7,21)
hsv_img = cv2.cvtColor(im, cv2.COLOR_BGR2HSV)   # HSV image


COLOR_MIN = np.array([233, 88, 233],np.uint8)       # HSV color code lower and upper bounds
COLOR_MAX = np.array([241, 82, 240],np.uint8)       # color pink 

frame_threshed = cv2.inRange(hsv_img, COLOR_MIN, COLOR_MAX)     # Thresholding image
imgray = frame_threshed
ret,thresh = cv2.threshold(frame_threshed,127,255,0)
contours, hierarchy = cv2.findContours(thresh,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)
print(contours)
for cnt in contours:
    x,y,w,h = cv2.boundingRect(cnt)
    print(x,y)
    cv2.rectangle(im,(x,y),(x+w,y+h),(0,255,0),2)
cv2.imwrite("extracted.jpg", im)

输出代码:

print(contours)
()

问题是粉色木头无法识别

【问题讨论】:

输出有什么问题?看起来它找到了我的粉红色木头。 不,输出是手动标记的 【参考方案1】:

如下更改您的 HSV 下限和上限:

COLOR_MIN = np.array([130,0,220],np.uint8)    
COLOR_MAX = np.array([170,255,255],np.uint8)  

【讨论】:

感谢您的回答。这就是答案。一个问题,你为什么选择这个颜色? [170,255,255] 只玩那些 HSV 范围。正常 HSV 范围:H = 0-360,S = 0-100 和 V = 0-100。 Opencv HSV 范围:H:0-179,S:0-255,V:0-255。不同的应用程序对 HSV 使用不同的尺度。参考类似问题[***.com/questions/10948589/…

以上是关于Python如何图像识别?的主要内容,如果未能解决你的问题,请参考以下文章

Python如何图像识别?

[Python图像识别] 五十一.水书图像识别之利用数据增强扩充图像数据集

Python如何图像识别?

Python如何图像识别?

如何在python中使用OCR从图像中获取文本识别器的坐标

python 图像识别