BP神经网络训练自己的数据(Tensorflow2.x版本)

Posted 伤心兮

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了BP神经网络训练自己的数据(Tensorflow2.x版本)相关的知识,希望对你有一定的参考价值。

一、开发环境

  • python3.6
  • Tensorflow2.x
  • numpy1.19
  • matplotlib3.3
  • scikit-learn0.24

二、数据集介绍

本次训练数据使用的是鸢尾花数据集,具体做法是将鸢尾花数据集保存在本地,充当自己的数据集。鸢尾花数据集中内包含 3 个类分别为山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)和维吉尼亚鸢尾(Iris-virginica),共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。其部分数据如下:

花萼长度花萼宽度花瓣长度花瓣宽度所属类别
5.13.51.40.2山鸢尾
4.931.40.2山鸢尾
…………………………
5.52.43.71变色鸢尾
5.82.73.91.2变色鸢尾
…………………………
6.23.45.42.3维吉尼亚鸢尾
5.935.11.8维吉尼亚鸢尾

三、BP神经算法推导与结构

《BP神经网络算法推导》

四、文件介绍

--data 
	--x_train.txt(用于存放训练数据)
	--result.txt(用于存放标签数据)
--train.py(训练脚本)
--predict.py(预测脚本)

五、程序代码

  • train.py
# -*- coding: utf-8 -*-

import tensorflow as tf
import numpy as np
import os
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split


def main():
    np.set_printoptions(threshold=np.inf)   # 设置打印/存取无行数/列数上限

    # 1.读取文件
    x_ = np.loadtxt('./data/x_train.txt')       # 训练数据
    y_ = np.loadtxt('./data/result.txt')        # 标签数据
    x_train, x_test, y_train, y_test = train_test_split(x_, y_, test_size=0.25)   # 将数据集分为训练集和验证集

    # 2.定义模型
    model = tf.keras.models.Sequential([
        # tf.keras.layers.Dense(64, activation='relu'),
        tf.keras.layers.Dense(10, activation='relu'),
        tf.keras.layers.Dense(3, activation='softmax')
    ])

    # 3.模型总结(用于查看模型参数和结构)
    model.build((32, 4))  # when using subclass model
    model.summary()

    # 4.定义优化方法和损失函数等
    model.compile(optimizer='adam',
                  loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
                  metrics=['sparse_categorical_accuracy'])

    # 5.模型保存(可以断点集训)
    checkpoint_save_path = "./checkpoint/mask.ckpt"
    if os.path.exists(checkpoint_save_path + '.index'):
        print('-------------load the model-----------------')
        model.load_weights(checkpoint_save_path)

    cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_save_path,
                                                     save_weights_only=True,
                                                     save_best_only=True)
    # 6.开始训练
    history = model.fit(x_train, y_train, batch_size=32, epochs=1000, validation_data=(x_test, y_test), validation_freq=1,
                        callbacks=[cp_callback])
    print(x_train)
    print(y_train)

    # 7.保存模型参数
    file = open('./weights.txt', 'w')
    for v in model.trainable_variables:
        file.write(str(v.name) + '\\n')
        file.write(str(v.shape) + '\\n')
        file.write(str(v.numpy()) + '\\n')
    file.close()

    # 8.显示训练集和验证集的acc和loss曲线
    acc = history.history['sparse_categorical_accuracy']
    val_acc = history.history['val_sparse_categorical_accuracy']
    loss = history.history['loss']
    val_loss = history.history['val_loss']

    plt.subplot(1, 2, 1)
    plt.plot(acc, label='Training Accuracy')
    plt.plot(val_acc, label='Validation Accuracy')
    plt.title('Training and Validation Accuracy')
    plt.legend()

    plt.subplot(1, 2, 2)
    plt.plot(loss, label='Training Loss')
    plt.plot(val_loss, label='Validation Loss')
    plt.title('Training and Validation Loss')
    plt.legend()
    plt.show()


if __name__ == '__main__':
    main()

  • predict.py
import tensorflow as tf
import numpy as np


def main():
    # 1. 加载数据
    x_train = np.loadtxt('./data/x_train.txt')
    y_train = np.loadtxt('./data/result.txt')

    # 2.定义模型(须和训练脚本(train.py)一致)
    model = tf.keras.models.Sequential([
        # tf.keras.layers.Dense(64, activation='relu'),
        tf.keras.layers.Dense(10, activation='relu'),
        tf.keras.layers.Dense(3, activation='softmax')
    ])

    # 3.加载模型
    model_save_path = './checkpoint/mask.ckpt'
    model.load_weights(model_save_path)

    # 4.进行预测
    result = model.predict(x_train)
    pred = np.array(tf.argmax(result, axis=1))      # 预测值
    acc = np.sum([pred[i] == y_train[i] for i in range(len(y_train))])/len(y_train)     # 计算准确率
    print(f'准确率为:acc*100%')


if __name__ == '__main__':
    main()

六、结果展示

  • 最终经过1000个epochs之后,准确率达到98%左右。

  • 最后使用predict.py计算训练样本准确率为98.6%(这样做法其实是不对的,应该使用新的数据来评估模型的准确率与泛化能力)

以上是关于BP神经网络训练自己的数据(Tensorflow2.x版本)的主要内容,如果未能解决你的问题,请参考以下文章

BP神经网络训练自己的数据(Tensorflow2.x版本)

使用Tensorflow训练BP神经网络实现鸢尾花分类

BP神经网络的模型已经训练好,想用多一些数据继续训练,怎么在原来的基础上训练呢?

BP神经网络的训练组训练是把所有的数据一起计算然后求它们的误差和吗?

MATLAB中训练LM算法的BP神经网络

BP神经网络的训练集需要大样本吗?一般样本个数为多少?