从keras中的扩展张量制作输入特征图
Posted
技术标签:
【中文标题】从keras中的扩展张量制作输入特征图【英文标题】:make input features map from expansion tensor in keras 【发布时间】:2020-11-02 06:10:15 【问题描述】:我在图像分类任务中使用了泰勒展开。基本上,首先,像素向量是从 RGB 图像生成的,并且来自像素向量的每个像素值将用sin(x)
的泰勒级数展开来近似。在 tensorflow 实现中,我尝试使用 tensorflow 对其进行编码,但当我尝试通过将张量与扩展项叠加来创建特征图时,我仍然遇到了一些问题。谁能提供可能的观点,我怎样才能使我目前的尝试更有效率?有什么可能的想法吗?
这里是泰勒级数sin(x)
的展开项:
这是我目前的尝试:
term = 2
c = tf.constant([1, -1/6])
power = tf.constant([1, 3])
x = tf.keras.Input(shape=(32, 32, 3))
res =[]
for x in range(term):
expansion = c * tf.math.pow(tf.tile(x[..., None], [1, 1, 1, 1, term]),power)
m_ij = tf.math.cumsum(expansion, axis=-1)
res.append(m_i)
但这不太有效,因为我想从每个扩展神经元创建输入特征图,delta_1
、delta_2
需要堆叠,我在上面的尝试中没有正确完成,我的代码是也不好概括。如何以正确的实施方式改进上述编码尝试?谁能给我可能的想法或规范的答案来改进我目前的尝试?
【问题讨论】:
你想求和或平均 m11 和 m12 还是其他任何东西?因为,没有它,它将使形状为 5D - (batch_size, 3, 244, 244, 2),所以您应该使用 Conv3D 层。 你不能使用stack API来堆叠张量吗? tensorflow.org/api_docs/python/tf/stackfor x in range(term):
重用同名 x
。 m_i
是什么?是m_ij
的意思吗?
你可以尝试使用 tf.Concatenate() 而不是堆栈,也许这会有所帮助。
@jyson - 我想尝试回答(并收集赏金:),刚刚看到这个问题,我已经完成了一堆 3D convnet 工作。如果您发布完整的代码(此处或 github 上的某处)会有所帮助,这样我就可以看到您如何输入数据以及您如何尝试进行扩展。
【参考方案1】:
如果按照描述进行级数展开,如果输入有 C 个通道并且展开有 T 项,则展开后的输入应该有 C*T 个通道,否则形状相同。因此,原始输入和近似于每个项的函数应该沿着通道维度连接。使用转置和重塑比实际连接更容易做到这一点。
以下是在 CIFAR10 上训练的卷积网络的示例代码:
inputs = tf.keras.Input(shape=(32, 32, 3))
x = inputs
n_terms = 2
c = tf.constant([1, -1/6])
p = tf.constant([1, 3], dtype=tf.float32)
terms = []
for i in range(n_terms):
m = c[i] * tf.math.pow(x, p[i])
terms.append(m)
expansion = tf.math.cumsum(terms)
expansion_terms_last = tf.transpose(expansion, perm=[1, 2, 3, 4, 0])
x = tf.reshape(expansion_terms_last, tf.constant([-1, 32, 32, 3*n_terms]))
x = Conv2D(32, (3, 3), input_shape=(32,32,3*n_terms))(x)
这假设原始网络(没有扩展)将具有如下所示的第一层:
x = Conv2D(32, (3, 3), input_shape=(32,32,3))(inputs)
网络的其余部分与没有扩展时完全相同。
terms
包含原始的 c_i * x ^ p_i 列表; expansion
在单个张量(其中 T 是第一个维度)中包含项(第一个,然后是第一个和第二个等)的 sum。 expansion_terms_last
将 T 维度移动到最后,并且 reshape 将形状从 (..., C, T)
更改为 (..., C*T)
model.summary()
的输出如下所示:
__________________________________________________________________________________________________
Layer (type) Output Shape Param # Connected to
==================================================================================================
input_4 (InputLayer) [(None, 32, 32, 3)] 0
__________________________________________________________________________________________________
tf_op_layer_Pow_6 (TensorFlowOp [(None, 32, 32, 3)] 0 input_4[0][0]
__________________________________________________________________________________________________
tf_op_layer_Pow_7 (TensorFlowOp [(None, 32, 32, 3)] 0 input_4[0][0]
__________________________________________________________________________________________________
tf_op_layer_Mul_6 (TensorFlowOp [(None, 32, 32, 3)] 0 tf_op_layer_Pow_6[0][0]
__________________________________________________________________________________________________
tf_op_layer_Mul_7 (TensorFlowOp [(None, 32, 32, 3)] 0 tf_op_layer_Pow_7[0][0]
__________________________________________________________________________________________________
tf_op_layer_x_3 (TensorFlowOpLa [(2, None, 32, 32, 3 0 tf_op_layer_Mul_6[0][0]
tf_op_layer_Mul_7[0][0]
__________________________________________________________________________________________________
tf_op_layer_Cumsum_3 (TensorFlo [(2, None, 32, 32, 3 0 tf_op_layer_x_3[0][0]
__________________________________________________________________________________________________
tf_op_layer_Transpose_3 (Tensor [(None, 32, 32, 3, 2 0 tf_op_layer_Cumsum_3[0][0]
__________________________________________________________________________________________________
tf_op_layer_Reshape_3 (TensorFl [(None, 32, 32, 6)] 0 tf_op_layer_Transpose_3[0][0]
__________________________________________________________________________________________________
conv2d_5 (Conv2D) (None, 30, 30, 32) 1760 tf_op_layer_Reshape_3[0][0]
在 CIFAR10 上,该网络在扩展时训练得稍微好一些 - 准确率可能提高 1%(从 71% 到 72%)。
使用示例数据逐步解释代码:
# create a sample input
x = tf.convert_to_tensor([[1,2,3],[4,5,6],[7,8,9]], dtype=tf.float32) # start with H=3, W=3
x = tf.expand_dims(x, axis=0) # add batch dimension N=1
x = tf.expand_dims(x, axis=3) # add channel dimension C=1
# x is now NHWC or (1, 3, 3, 1)
n_terms = 2 # expand to T=2
c = tf.constant([1, -1/6])
p = tf.constant([1, 3], dtype=tf.float32)
terms = []
for i in range(n_terms):
# this simply calculates m = c_i * x ^ p_i
m = c[i] * tf.math.pow(x, p[i])
terms.append(m)
print(terms)
# list of two tensors with shape NHWC or (1, 3, 3, 1)
# calculate each partial sum
expansion = tf.math.cumsum(terms)
print(expansion.shape)
# tensor with shape TNHWC or (2, 1, 3, 3, 1)
# move the T dimension last
expansion_terms_last = tf.transpose(expansion, perm=[1, 2, 3, 4, 0])
print(expansion_terms_last.shape)
# tensor with shape NHWCT or (1, 3, 3, 1, 2)
# stack the last two dimensions together
x = tf.reshape(expansion_terms_last, tf.constant([-1, 3, 3, 1*2]))
print(x.shape)
# tensor with shape NHW and C*T or (1, 3, 3, 2)
# if the input had 3 channels for example, this would be (1, 3, 3, 6)
# now use this as though it was the input
关键假设 (1) c_i 和 p_i 不是学习参数,因此“扩展神经元”实际上不是神经元,它们只是一个乘和求和节点(虽然神经元听起来更酷:) (2) 每个输入通道独立进行扩展,因此 C 个输入通道扩展为 T 项,每个都产生 C*T 输入特征,但每个通道的 T 个特征是完全独立于其他通道计算的(看起来像图表),以及 (3) 输入包含所有部分和(即 c_1 * x ^ p_1、c_1 * x ^ p_1 + c_2 * x ^ p_2 等等)但不包含项(再次,看起来像在图中)
【讨论】:
以上是关于从keras中的扩展张量制作输入特征图的主要内容,如果未能解决你的问题,请参考以下文章
如何从 resnet 层循环遍历 4D(无,x,y,z)激活张量的 2D 矩阵?
制作自定义 Keras 层时不能使用未知的输入尺寸(批量大小)