使用类似于 Lenet5 的架构对“101 个对象类别”数据进行分类,获得比预期更高的准确度

Posted

技术标签:

【中文标题】使用类似于 Lenet5 的架构对“101 个对象类别”数据进行分类,获得比预期更高的准确度【英文标题】:Getting an higher accuracy than expected for classifying the '101 object categories' data using an architecture similar to Lenet5 【发布时间】:2020-07-07 22:30:06 【问题描述】:

我正在尝试构建一个类似于 Lenet5 的模型并在 Caltech 101 数据集上进行训练。此基线模型的预期准确度低于 60%。但是我的模型达到了 90+% 的准确度,我怀疑对于这个数据集,Lenet5 不应该做到这一点。以下代码 sn-ps 展示了如何读取数据以及如何定义我的模型,然后是我获得的结果。

我正在使用 tf.data 加载图像,如 Tensorflow 教程中所示。

# Obtain test(10%) and train size(90%)
test_size = round(0.1 * image_count)
train_size = image_count-test_size

# Take first 10% values as test_data
test_data = labeled_ds.take(test_size)
# Skip first 10%, and keep rest 90% data as train_data
train_data = labeled_ds.skip(test_size)

# Define np arrays to store images and labels (to be passed to the model)

train_images = np.empty((train_size,64,64,3), dtype=np.float32)
train_labels = np.empty((train_size,101,), dtype=np.bool_)
test_images = np.empty((test_size,64,64,3), dtype=np.float32)
test_labels = np.empty((test_size,101,), dtype=np.bool_)

# Iterating over train_data to seperate images and labels
for i,data in enumerate(train_data):
    train_images[i] = data[0]
    train_labels[i] = data[1]

# Iterating over test_data to seperate images and labels    
for i,data in enumerate(test_data):
    test_images[i] = data[0]
    test_labels[i] = data[1]

# Convert numpy arrays into tensors
# Perform one-hot encoding for labels (False ->0, True -> 1)
train_images = tf.convert_to_tensor(train_images)
train_labels = tf.convert_to_tensor(train_labels, dtype=tf.int32)
test_images = tf.convert_to_tensor(test_images)
test_labels = tf.convert_to_tensor(test_labels, dtype=tf.int32)

数据的形状是:

Train images shape:  (7809, 64, 64, 3)
Test images shape:   (868, 64, 64, 3)
Train labels shape:  (7809, 101)
Test labels shape:   (868, 101)

我正在定义的 Lenet5 模型:

# Define the Lenet 5 architecture as per the description
model = models.Sequential()
model.add(layers.Conv2D(32, (5, 5), activation='relu', input_shape=(64, 64, 3)))
model.add(layers.MaxPooling2D((4, 4)))
model.add(layers.Conv2D(64, (5, 5), activation='relu'))
model.add(layers.MaxPooling2D((4, 4)))
model.add(layers.Flatten())
model.add(layers.Dense(1024, input_shape=(256,), activation='relu'))
model.add(layers.Dense(84, activation='relu'))
model.add(layers.Dense(101, activation='softmax'))

model.compile(optimizer='adam',loss=tf.keras.losses.CategoricalCrossentropy(), metrics=['accuracy'])

history = model.fit(train_images, train_labels, epochs=20, validation_data=(test_images, test_labels))

观察到的损失和准确度值:

Train on 7809 samples, validate on 868 samples
Epoch 1/20
7809/7809 [==============================] - 17s 2ms/sample - loss: 3.8387 - accuracy: 0.2018 - val_loss: 3.3969 - val_accuracy: 0.2661
.
.
.
Epoch 19/20
7809/7809 [==============================] - 15s 2ms/sample - loss: 0.1205 - accuracy: 0.9679 - val_loss: 0.5456 - val_accuracy: 0.9136
Epoch 20/20
7809/7809 [==============================] - 15s 2ms/sample - loss: 0.1672 - accuracy: 0.9522 - val_loss: 0.5295 - val_accuracy: 0.9159

我检查以确保我的测试数据不存在于训练数据中。

test_images.numpy() in train_images.numpy()
# Outputs 'False'

我绘制了混淆矩阵以确保模型不会将所有标签都分类为 False。

from sklearn.metrics import confusion_matrix

y_pred = model.predict_classes(test_images)

y_label = []
for i in range(len(y_pred)):
    a, = np.where(test_labels[i].numpy()==1)
    y_label.append(a[0])

con_mat = tf.math.confusion_matrix(labels=y_label, predictions=y_pred)
'''
Output: con_mat = 
array([[2, 0, 0, ..., 0, 0, 0],
       [0, 9, 0, ..., 0, 0, 0],
       [0, 0, 4, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 5, 0, 0],
       [0, 0, 0, ..., 0, 3, 0],
       [0, 0, 0, ..., 0, 0, 2]], dtype=int32)
'''

我了解我可能犯了错误或发现了潜在的缺陷,这可能会导致高精度。任何线索将不胜感激。谢谢!

【问题讨论】:

您是如何得出预期基线模型准确度应低于 60% 的结论的。 这个数据集架构不能很好地工作。我和一群人一起工作,每个人的基线准确率都达到了约 60%。我发现了我的代码中的错误,我会相应地更新答案。谢谢! 【参考方案1】:

测试数据和训练数据未正确拆分。使用 'take' 和 'skip' 方法不会将数据分成 2 个unique 集。我认为我对采取和跳过方法有错误的理解。由于训练数据中存在“大部分”测试数据,而不是“全部”测试数据,因此该行

test_images.numpy() in train_images.numpy()

输出假。

【讨论】:

以上是关于使用类似于 Lenet5 的架构对“101 个对象类别”数据进行分类,获得比预期更高的准确度的主要内容,如果未能解决你的问题,请参考以下文章

神经网络的发展历程

CNN之Lenet5

VGG网络与LeNet5网络的对比分析

VGG网络与LeNet5网络的对比分析

AI常用框架和工具丨10. TensorFlow实现基于LeNet5的手写数字识别

AI常用框架和工具丨10. TensorFlow实现基于LeNet5的手写数字识别