学习过程相当于使用一个滤波器,定义滤波器大小和深度步长,在原图像上滑动,滤波器上每一个深度的点对原图像上特征点响应的量化值都是不同的,响应过程是一个卷积过程,原图像如果是3 7*7(3是原来的depth),滤波器定义为10 3*3 stride=1则获得的输出为10 5*5,在学习过程中卷积层的大小会不断变小,所以针对高深度的可能会循环上千次的卷积神经网络,需要在每次输出的卷积层外加(size_of_fliter-1)的pad,来防止尺度缩减或者缩减过快的问题,针对我列举出的数据,训练一次之后的参数量为(3*3*3+1)*10=280(这个+1不知道是为啥。。网课上说的是for bias)
对于一个W1*H1*D1的原图像,用(K,F,S,P)(滤波器数,边长,步长,pad)获得的卷积层为W2=(W1-F+2P)/S+1=H2 D2=K
pooling池化操作(最大池化,和平均池化)大概意思就是用一个滤波器在卷积层上采样,最大池化是在3*3的范围内取最大值池化,平均池化是取平均值存取
FC操作(全连接层)综合计算各个可能的选项,并选出最优值。