Keras:什么是VGG16中的model.inputs
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Keras:什么是VGG16中的model.inputs相关的知识,希望对你有一定的参考价值。
我最近开始玩keras和vgg16,我正在使用keras.applications.vgg16。
但在这里我提出了一个关于什么是model.inputs
的问题,因为我看到其他人在https://github.com/keras-team/keras/blob/master/examples/conv_filter_visualization.py中使用它,尽管它没有初始化它
...
input_img = model.input
...
layer_output = layer_dict[layer_name].output
if K.image_data_format() == 'channels_first':
loss = K.mean(layer_output[:, filter_index, :, :])
else:
loss = K.mean(layer_output[:, :, :, filter_index])
# we compute the gradient of the input picture wrt this loss
grads = K.gradients(loss, input_img)[0]
我检查了keras网站,但它只说这是一个形状的输入张量(1,224,224,3)但我仍然不明白究竟是什么。这是来自ImageNet的图像吗?还是keras为keras模型提供的默认图像?
如果我对深度学习没有足够的理解,我很抱歉,但有人可以向我解释。谢谢
(1,224,224,3)
的4个维度分别是batch_size
,image_width
,image_height
和image_channels
。 (1,224,224,3)
意味着VGG16
模型接受形状1
和三个通道(RGB)的批量大小的224x224
(一次一个图像)。
有关batch
以及batch size
是什么的更多信息,您可以查看this Cross Validated问题。
回到VGG16
,架构的输入是(1, 224, 224, 3)
。这是什么意思?为了将图像输入网络,您需要:
- 预处理它以达到(224,224)和3个通道(RGB)的形状
- 将其转换为实际的形状矩阵(224,224,3)
- 将需要网络的一批大小的各种图像组合在一起(在这种情况下,批量大小为1,但您需要在矩阵中添加一个维度,以获得(1,224,224,3)
完成此操作后,您可以将图像输入到模型中。
Keras提供很少的实用功能来完成这些任务。下面我将在文档中介绍Usage examples for image classification models中使用VGG16提取功能中显示的代码段的修改版本。
为了让它真正起作用,你需要一个名为jpg
的任何大小的elephant.jpg
。您可以使用此bash命令获取它:
wget https://upload.wikimedia.org/wikipedia/commons/f/f9/Zoorashia_elephant.jpg -O elephant.jpg
为清晰起见,我将在图像预处理和模型预测中拆分代码:
加载图像
import numpy as np
from keras.preprocessing import image
from keras.applications.vgg16 import preprocess_input
img_path = 'elephant.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)
您可以沿途添加打印件以查看正在发生的情况,但这里有一个简短的摘要:
image.load_img()
加载一个PIL图像,已经在RGB中并且已经将其重新整形为(224,224)image.img_to_array()
正在将此图像转换为形状矩阵(224,224,3)。如果访问x [0,0,0],您将获得第一个像素的红色分量,作为0到255之间的数字np.expand_dims(x, axis=0)
正在添加第一个维度。 x后有形状(1, 224, 224, 3)
preprocess_input
正在对经过imagenet训练的架构进行额外的预处理。从它的docstring(运行help(preprocess_input)
)你可以看到它: 将图像从RGB转换为BGR,然后将相对于ImageNet数据集的每个颜色通道置零,不进行缩放
这似乎是ImageNet训练集的标准输入。
这就是预处理,现在您可以在预训练模型中输入图像并获得预测
预测
y_hat = base_model.predict(x)
print(y_hat.shape) # res.shape (1, 1000)
y_hat
包含模型分配给该图像的1000个imagenet类中的每一个的概率。
为了获得类名和可读输出,keras也提供了一个实用功能:
from keras.applications.vgg16 import decode_predictions
decode_predictions(y_hat)
输出,我之前下载的Zoorashia_elephant.jpg
图像:
[[('n02504013', 'Indian_elephant', 0.48041093),
('n02504458', 'African_elephant', 0.47474155),
('n01871265', 'tusker', 0.03912963),
('n02437312', 'Arabian_camel', 0.0038948185),
('n01704323', 'triceratops', 0.00062475674)]]
这似乎很不错!
以上是关于Keras:什么是VGG16中的model.inputs的主要内容,如果未能解决你的问题,请参考以下文章