如何使用 Keras Function API 进行深度学习
Posted 来西瓜
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何使用 Keras Function API 进行深度学习相关的知识,希望对你有一定的参考价值。
Keras Python 库使创建深度学习模型变得又快又容易。Sequential API 允许您为大多数问题逐层创建模型。 它的局限性在于它不允许您创建共享层或具有多个输入或输出的模型。Keras 中的Function API 是创建模型的另一种方式,它提供了更多的灵活性,包括创建更复杂的模型。在本教程中,您将了解如何使用 Keras 中更灵活的函数式 API 来定义深度学习模型。完成本教程后,您将了解:
- SequentialAPI 和Function API 之间的区别。
- 如何使用Function API 定义简单的多层感知器、卷积神经网络和循环神经网络模型。
- 如何定义具有共享层和多个输入和输出的更复杂的模型。
1 Keras中的Sequential模型
Sequential 模型 API 是一种创建深度学习模型的方法,其中创建了 Sequential 类的实例,并创建了模型层并将其添加到其中。例如,可以定义层并将其作为数组传递给 Sequential:
from keras.models import Sequential
from keras.layers import Dense
model = Sequential([Dense(2, input_dim=1), Dense(1)])
层也可以分段添加:
from keras.models import Sequential
from keras.layers import Dense
model = Sequential()
model.add(Dense(2, input_dim=1))
model.add(Dense(1))
Sequential模型 API 非常适合在大多数情况下开发深度学习模型,但它也有一些限制。例如,定义可能具有多个不同输入源、产生多个输出目标或重用层的模型的模型并不简单。
2 Keras Function API模型
Keras Function API 为定义模型提供了一种更灵活的方式。它特别允许您定义多个输入或输出模型以及共享层的模型。 不仅如此,它还允许您定义特定的非循环网络图。模型是通过创建层的实例并将它们直接成对地相互连接,然后定义一个模型来定义的,该模型指定层作为模型的输入和输出。让我们依次看一下 Keras Function API 的三个独特方面:
2.1 定义输入
与 Sequential 模型不同,您必须创建并定义一个独立的 Input 层来指定输入数据的形状。输入层采用一个形状参数,它是一个元组,指示输入数据的维度。
当输入数据是一维时,例如对于多层感知器,形状必须明确地为训练网络时分割数据时使用的小批量大小的形状留出空间。 因此,当输入为一维 (2,) 时,形状元组始终定义为悬挂最后一维,例如:
from keras.layers import Input
visible = Input(shape=(2,))
2.2 连接层
模型中的层是成对连接的。这是通过在定义每个新层时指定输入的来源来完成的。 使用括号表示法,以便在创建层之后,指定当前层的输入来自的层。
让我们用一个简短的例子来说明这一点。 我们可以像上面一样创建输入层,然后创建一个隐藏层作为仅从输入层接收输入的 Dense。
from keras.layers import Input
from keras.layers import Dense
visible = Input(shape=(2,))
hidden = Dense(2)(visible)
请注意创建密集层(visible)后的,该密集层将输入层输出作为输入连接到密集隐藏层。正是这种逐层连接的方式赋予了函数式 API 灵活性。 例如,您可以看到开始定义临时图层图是多么容易。
2.3 创建模型
创建所有模型层并将它们连接在一起后,您必须定义模型。与 Sequential API 一样,模型是您可以总结、拟合、评估和用于进行预测的东西。Keras 提供了一个 Model 类,您可以使用它从您创建的层创建模型。 它要求您只指定输入和输出层。 例如:
from keras.models import Model
from keras.layers import Input
from keras.layers import Dense
visible = Input(shape=(2,))
hidden = Dense(2)(visible)
model = Model(inputs=visible, outputs=hidden)
现在我们已经了解了 Keras 函数式 API 的所有关键部分,让我们定义一套不同的模型并用它建立一些实践。每个示例都是可执行的并打印结构并创建摘要图。 我建议对您自己的模型执行此操作,以明确您定义的确切内容。我希望这些示例在您将来想使用函数式 API 定义自己的模型时为您提供模板。
3 标准网络模型
开始使用Function API 时,最好了解一些标准神经网络模型是如何定义的。在本节中,我们将着眼于定义一个简单的多层感知器、卷积神经网络和循环神经网络。这些示例将为以后理解更详细的示例提供基础。
3.1 多层感知器
在本节中,我们定义了一个用于二元分类的多层感知器模型。该模型有 10 个输入,3 个具有 10、20 和 10 个神经元的隐藏层,以及一个具有 1 个输出的输出层。 每个隐藏层使用整流线性激活函数,输出层使用 sigmoid 激活函数,用于二元分类。
# 多层感知器
from keras.utils import plot_model
from keras.models import Model
from keras.layers import Input
from keras.layers import Dense
visible = Input(shape=(10,))
hidden1 = Dense(10, activation=relu)(visible)
hidden2 = Dense(20, activation=relu)(hidden1)
hidden3 = Dense(10, activation=relu)(hidden2)
output = Dense(1, activation=sigmoid)(hidden3)
model = Model(inputs=visible, outputs=output)
# 模型摘要
print(model.summary())
# 图形摘要
plot_model(model, to_file=multilayer_perceptron_graph.png)
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
input_1 (InputLayer) (None, 10) 0
_________________________________________________________________
dense_1 (Dense) (None, 10) 110
_________________________________________________________________
dense_2 (Dense) (None, 20) 220
_________________________________________________________________
dense_3 (Dense) (None, 10) 210
_________________________________________________________________
dense_4 (Dense) (None, 1) 11
=================================================================
Total params: 551
Trainable params: 551
Non-trainable params: 0
_________________________________________________________________
3.2 卷积神经网络
在本节中,我们将定义一个用于图像分类的卷积神经网络。该模型接收黑白 64×64 图像作为输入,然后具有两个卷积层和池化层作为特征提取器的序列,然后是一个全连接层来解释特征和一个具有 sigmoid 激活的输出层,用于两类预测 。
# 卷积神经网络
from keras.utils import plot_model
from keras.models import Model
from keras.layers import Input
from keras.layers import Dense
from keras.layers import Flatten
from keras.layers.convolutional import Conv2D
from keras.layers.pooling import MaxPooling2D
visible = Input(shape=(64,64,1))
conv1 = Conv2D(32, kernel_size=4, activation=relu)(visible)
pool1 = MaxPooling2D(pool_size=(2, 2))(conv1)
conv2 = Conv2D(16, kernel_size=4, activation=relu)(pool1)
pool2 = MaxPooling2D(pool_size=(2, 2))(conv2)
flat = Flatten()(pool2)
hidden1 = Dense(10, activation=relu)(flat)
output = Dense(1, activation=sigmoid)(hidden1)
model = Model(inputs=visible, outputs=output)
# 模型摘要
print(model.summary())
# 图形摘要
plot_model(model, to_file=convolutional_neural_network.png)
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
input_1 (InputLayer) (None, 64, 64, 1) 0
_________________________________________________________________
conv2d_1 (Conv2D) (None, 61, 61, 32) 544
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 30, 30, 32) 0
_________________________________________________________________
conv2d_2 (Conv2D) (None, 27, 27, 16) 8208
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 13, 13, 16) 0
_________________________________________________________________
flatten_1 (Flatten) (None, 2704) 0
_________________________________________________________________
dense_1 (Dense) (None, 10) 27050
_________________________________________________________________
dense_2 (Dense) (None, 1) 11
=================================================================
Total params: 35,813
Trainable params: 35,813
Non-trainable params: 0
_________________________________________________________________
3.3 递归神经网络
在本节中,我们将定义一个用于序列分类的长短期记忆循环神经网络。该模型期望一个特征的 100 个时间步长作为输入。 该模型有一个 LSTM 隐藏层来从序列中提取特征,然后是一个全连接层来解释 LSTM 输出,然后是一个输出层来进行二进制预测。
# 递归神经网络
from keras.utils import plot_model
from keras.models import Model
from keras.layers import Input
from keras.layers import Dense
from keras.layers.recurrent import LSTM
visible = Input(shape=(100,1))
hidden1 = LSTM(10)(visible)
hidden2 = Dense(10, activation=relu)(hidden1)
output = Dense(1, activation=sigmoid)(hidden2)
model = Model(inputs=visible, outputs=output)
# 模型摘要
print(model.summary())
# 图形摘要
plot_model(model, to_file=recurrent_neural_network.png)
_________________________________________________________________
Layer (type) Output Shape Param #
=================================================================
input_1 (InputLayer) (None, 100, 1) 0
_________________________________________________________________
lstm_1 (LSTM) (None, 10) 480
_________________________________________________________________
dense_1 (Dense) (None, 10) 110
_________________________________________________________________
dense_2 (Dense) (None, 1) 11
=================================================================
Total params: 601
Trainable params: 601
Non-trainable params: 0
_________________________________________________________________
4 共享层模型
多个层可以共享一层的输出。例如,输入可能有多个不同的特征提取层,或者用于解释特征提取层的输出的多个层。让我们看看这两个例子。
4.1 共享输入层
在本节中,我们定义了多个具有不同大小内核的卷积层来解释图像输入。该模型拍摄大小为 64×64 像素的黑白图像。 有两个 CNN 特征提取子模型共享这个输入; 第一个的内核大小为 4,第二个内核大小为 8。这些特征提取子模型的输出被展平为向量并连接成一个长向量,并在最终输出层生成之前传递到全连接层进行解释二元分类。
# 共享输入层
from keras.utils import plot_model
from keras.models import Model
from keras.layers import Input
from keras.layers import Dense
from keras.layers import Flatten
from keras.layers.convolutional import Conv2D
from keras.layers.pooling import MaxPooling2D
from keras.layers.merge import concatenate
# 输入层
visible = Input(shape=(64,64,1))
# 第一特征提取
conv1 = Conv2D(32, kernel_size=4, activation=relu)(visible)
pool1 = MaxPooling2D(pool_size=(2, 2))(conv1)
flat1 = Flatten()(pool1)
# 第二特征提取
conv2 = Conv2D(16, kernel_size=8, activation=relu)(visible)
pool2 = MaxPooling2D(pool_size=(2, 2))(conv2)
flat2 = Flatten()(pool2)
# 融合特征
merge = concatenate([flat1, flat2])
# interpretation layer
hidden1 = Dense(10, activation=relu)(merge)
# 输出层
output = Dense(1, activation=sigmoid)(hidden1)
model = Model(inputs=visible, outputs=output)
# 模型摘要
print(model.summary())
# 图形摘要
plot_model(model, to_file=shared_input_layer.png)
____________________________________________________________________________________________________
Layer (type) Output Shape Param # Connected to
====================================================================================================
input_1 (InputLayer) (None, 64, 64, 1) 0
____________________________________________________________________________________________________
conv2d_1 (Conv2D) (None, 61, 61, 32) 544 input_1[0][0]
____________________________________________________________________________________________________
conv2d_2 (Conv2D) (None, 57, 57, 16) 1040 input_1[0][0]
____________________________________________________________________________________________________
max_pooling2d_1 (MaxPooling2D) (None, 30, 30, 32) 0 conv2d_1[0][0]
____________________________________________________________________________________________________
max_pooling2d_2 (MaxPooling2D) (None, 28, 28, 16) 0 conv2d_2[0][0]
____________________________________________________________________________________________________
flatten_1 (Flatten) (None, 28800) 0 max_pooling2d_1[0][0]
____________________________________________________________________________________________________
flatten_2 (Flatten) (None, 12544) 0 max_pooling2d_2[0][0]
____________________________________________________________________________________________________
concatenate_1 (Concatenate) (None, 41344) 0 flatten_1[0][0]
flatten_2[0][0]
____________________________________________________________________________________________________
dense_1 (Dense) (None, 10) 413450 concatenate_1[0][0]
____________________________________________________________________________________________________
dense_2 (Dense) (None, 1) 11 dense_1[0][0]
====================================================================================================
Total params: 415,045
Trainable params: 415,045
Non-trainable params: 0
____________________________________________________________________________________________________
4.2 共享特征提取层
在本节中,我们将使用两个并行子模型来解释 LSTM 特征提取器的输出以进行序列分类。模型的输入是 1 个特征的 100 个时间步长。 具有 10 个记忆单元的 LSTM 层解释了这个序列。 第一个解释模型是一个浅的单全连接层,第二个是一个深的 3 层模型。 两个解释模型的输出被连接成一个长向量,该向量被传递到用于进行二进制预测的输出层。
# 共享特征提取层
from keras.utils import plot_model
from keras.models import Model
from keras.layers import Input
from keras.layers import Dense
from keras.layers.recurrent import LSTM
from keras.layers.merge import concatenate
# 定义输入
visible = Input(shape=(100,1))
# 特征提取
extract1 = LSTM(10)(visible)
# 第一解释模型
interp1 = Dense(10, activation=relu)(extract1)
# 第二解释模型
interp11 = Dense(10, activation=relu)(extract1)
interp12 = Dense(20, activation=relu)(interp11)
interp13 = Dense(10, activation=relu)(interp12)
# 融合解释
merge = concatenate([interp1, interp13])
# 输出
output = Dense(1, activation=sigmoid)(merge)
model = Model(inputs=visible, outputs=output)
# 摘要
print(model.summary())
# 图形摘要
plot_model(model, to_file=shared_feature_extractor.png)
____________________________________________________________________________________________________
Layer (type) Output Shape Param # Connected to
====================================================================================================
input_1 (InputLayer) (None, 100, 1) 0
____________________________________________________________________________________________________
lstm_1 (LSTM) (None, 10) 480 input_1[0][0]
____________________________________________________________________________________________________
dense_2 (Dense) (None, 10) 110 lstm_1[0][0]
____________________________________________________________________________________________________
dense_3 (Dense) (None, 20) 220 dense_2[0][0]
____________________________________________________________________________________________________
dense_1 (Dense) (None, 10) 110 lstm_1[0][0]
____________________________________________________________________________________________________
dense_4 (Dense) (None, 10) 210 dense_3[0][0]
____________________________________________________________________________________________________
concatenate_1 (Concatenate) (None, 20) 0 dense_1[0][0]
dense_4[0][0]
____________________________________________________________________________________________________
dense_5 (Dense) (None, 1) 21 concatenate_1[0][0]
====================================================================================================
Total params: 1,151
Trainable params: 1,151
Non-trainable params: 0
____________________________________________________________________________________________________
5 多输入和输出模型
功能 API 还可用于开发具有多个输入的更复杂的模型,可能具有不同的模式。 它还可用于开发产生多个输出的模型。我们将在本节中查看每个示例。
5.1 多输入模型
我们将开发一个图像分类模型,该模型将图像的两个版本作为输入,每个版本的大小都不同。 具体来说是黑白 64×64 版和彩色 32×32 版。 单独的特征提取 CNN 模型对每个模型进行操作,然后将两个模型的结果连接起来以进行解释和最终预测。请注意,在创建 Model() 实例时,我们将两个输入层定义为一个数组。 具体来说:
model = Model(inputs=[visible1, visible2], outputs=output)
下面列出了完整的示例。
# 多输入示例
from keras.utils import plot_model
from keras.models import Model
from keras.layers import Input
from keras.layers import Dense
from keras.layers import Flatten
from keras.layers.convolutional import Conv2D
from keras.layers.pooling import MaxPooling2D
from keras.layers.merge import concatenate
# 第一输入模型
visible1 = Input(shape=(64,64,1))
conv11 = Conv2D(32, kernel_size=4, activation=relu)(visible1)
pool11 = MaxPooling2D(pool_size=(2, 2))(conv11)
conv12 = Conv2D(16, kernel_size=4, activation=relu)(pool11)
pool12 = MaxPooling2D(pool_size=(2, 2))(conv12)
flat1 = Flatten()(pool12)
# 第二输入模型
visible2 = Input(shape=(32,32,3))
conv21 = Conv2D(32, kernel_size=4, activation=relu)(visible2)
pool21 = MaxPooling2D(pool_size=(2, 2))(conv21)
conv22 = Conv2D(16, kernel_size=4, activation=relu)(pool21)
pool22 = MaxPooling2D(pool_size=(2, 2))(conv22)
flat2 = Flatten()(pool22)
# 融合输入
merge = concatenate([flat1, flat2])
# 解释模型
hidden1 = Dense(10, activation=relu)(merge)
hidden2 = Dense(10, activation=relu)(hidden1)
output = Dense(1, activation=sigmoid)(hidden2)
model = Model(inputs=[visible1, visible2], outputs=output)
# 模型摘要
print(model.summary())
# 图形摘要
plot_model(model, to_file=multiple_inputs.png)
____________________________________________________________________________________________________
Layer (type) Output Shape Param # Connected to
====================================================================================================
input_1 (InputLayer) (None, 64, 64, 1) 0
____________________________________________________________________________________________________
input_2 (InputLayer) (None, 32, 32, 3) 0
____________________________________________________________________________________________________
conv2d_1 (Conv2D) (None, 61, 61, 32) 544 input_1[0][0]
____________________________________________________________________________________________________
conv2d_3 (Conv2D) (None, 29, 29, 32) 1568 input_2[0][0]
____________________________________________________________________________________________________
max_pooling2d_1 (MaxPooling2D) (None, 30, 30, 32) 0 conv2d_1[0][0]
____________________________________________________________________________________________________
max_pooling2d_3 (MaxPooling2D) (None, 14, 14, 32) 0 conv2d_3[0][0]
____________________________________________________________________________________________________
conv2d_2 (Conv2D) (None, 27, 27, 16) 8208 max_pooling2d_1[0][0]
____________________________________________________________________________________________________
conv2d_4 (Conv2D) (None, 11, 11, 16) 8208 max_pooling2d_3[0][0]
____________________________________________________________________________________________________
max_pooling2d_2 (MaxPooling2D) (None, 13, 13, 16) 0 conv2d_2[0][0]
____________________________________________________________________________________________________
max_pooling2d_4 (MaxPooling2D) (None, 5, 5, 16) 0 conv2d_4[0][0]
____________________________________________________________________________________________________
flatten_1 (Flatten) (None, 2704) 0 max_pooling2d_2[0][0]
____________________________________________________________________________________________________
flatten_2 (Flatten) (None, 400) 0 max_pooling2d_4[0][0]
____________________________________________________________________________________________________
concatenate_1 (Concatenate) (None, 3104) 0 flatten_1[0][0]
flatten_2[0][0]
____________________________________________________________________________________________________
dense_1 (Dense) (None, 10) 31050 concatenate_1[0][0]
____________________________________________________________________________________________________
dense_2 (Dense) (None, 10) 110 dense_1[0][0]
____________________________________________________________________________________________________
dense_3 (Dense) (None, 1) 11 dense_2[0][0]
====================================================================================================
Total params: 49,699
Trainable params: 49,699
Non-trainable params: 0
____________________________________________________________________________________________________
5.2 多输出模型
在本节中,我们将开发一个模型来进行两种不同类型的预测。 给定一个特征的 100 个时间步长的输入序列,模型将对该序列进行分类并输出一个具有相同长度的新序列。
LSTM 层解释输入序列并返回每个时间步的隐藏状态。 第一个输出模型创建一个堆叠的 LSTM,解释特征,并进行二进制预测。 第二个输出模型使用相同的输出层对每个输入时间步进行实值预测。
# 多输出
from keras.utils import plot_model
from keras.models import Model
from keras.layers import Input
from keras.layers import Dense
from keras.layers.recurrent import LSTM
from keras.layers.wrappers import TimeDistributed
# 输入层
visible = Input(shape=(100,1))
# 特征抽取
extract = LSTM(10, return_sequences=True)(visible)
# 分类输出
class11 = LSTM(10)(extract)
class12 = Dense(10, activation=relu)(class11)
output1 = Dense(1, activation=sigmoid)(class12)
# sequence output
output2 = TimeDistributed(Dense(1, activation=linear))(extract)
# 输出
model = Model(inputs=visible, outputs=[output1, output2])
# 模型摘要
print(model.summary())
# 图形摘要
plot_model(model, to_file=multiple_outputs.png)
____________________________________________________________________________________________________
Layer (type) Output Shape Param # Connected to
====================================================================================================
input_1 (InputLayer) (None, 100, 1) 0
____________________________________________________________________________________________________
lstm_1 (LSTM) (None, 100, 10) 480 input_1[0][0]
____________________________________________________________________________________________________
lstm_2 (LSTM) (None, 10) 840 lstm_1[0][0]
____________________________________________________________________________________________________
dense_1 (Dense) (None, 10) 110 lstm_2[0][0]
____________________________________________________________________________________________________
dense_2 (Dense) (None, 1) 11 dense_1[0][0]
____________________________________________________________________________________________________
time_distributed_1 (TimeDistribu (None, 100, 1) 11 lstm_1[0][0]
====================================================================================================
Total params: 1,452
Trainable params: 1,452
Non-trainable params: 0
____________________________________________________________________________________________________
6 最佳实践
在本节中,我想为您提供一些技巧,帮助您在定义自己的模型时充分利用Function API。
1)一致的变量名称。 对输入(可见)和输出层(输出)甚至隐藏层(hidden1、hidden2)使用相同的变量名称。 它将有助于正确地将事物连接在一起。
2)查看Layer摘要。 始终打印模型摘要并查看层输出,以确保模型按预期连接在一起。
3)查看图表。 始终创建模型图并查看它,以确保所有内容都按照您的预期组合在一起。
4)命名Layer。 您可以为在查看模型图的摘要和绘图时使用的Layer指定名称。 例如:Dense(1, name=‘hidden1)。
5)分离子模型。 考虑分离子模型的开发,最后将子模型组合在一起。
7 后记
其实对于工科的学生或者从业者(工程师)来说,利用神经网络对数据进行预测都是一项非常有用的技能。往浅了说,数据+预测模型+推理=论文,而且是大量的论文,因为换换模型或者数据就又是一篇,知网上有很多这样的文章,从核心期刊到无名期刊都有。往深了说,西方科学的一个重要目的就是利用过去指导未来,这正好是神经网络擅长的。那么问题来了,如果我写一本书,立足Keras,面向工程应用,屏蔽数学原理,少讲复杂编程,目的是让非计算机专业的工程师能够迅速将神经网络运用到自己熟悉的领域中,那么会有人买吗?
以上是关于如何使用 Keras Function API 进行深度学习的主要内容,如果未能解决你的问题,请参考以下文章
Keras功能(K.function)不与RNN一起使用(提供的代码)