如何使用基于 csv 数据集的模型进行预测?

Posted

技术标签:

【中文标题】如何使用基于 csv 数据集的模型进行预测?【英文标题】:How to make a prediction using a model based on csv dataset? 【发布时间】:2022-01-11 05:32:42 【问题描述】:

按照教程,我制作了一个神经网络,其数据集来自我制作的 csv 文件。 它是一个简单的数据集,包含每个学生的第一次考试成绩、第二次考试成绩、第三次考试成绩和国籍。目标是使用第一次和第二次考试结果和国籍来预测第三次考试结果。 下面是代码的样子。

column_names = ['First exam result', 'Second exam result', 'Third exam result', 'Country']
dataset = pd.read_csv('data1.csv', names=column_names, sep=';')
dataset = dataset.dropna()  # clean data

# convert categorical 'Country' data into one-hot data
dataset.Country=pd.Categorical(dataset.Country, ['PL', 'ENG'], ordered=True)
dataset.Country=dataset.Country.cat.codes

# split data
train_dataset = dataset.sample(frac=0.8, random_state=0)
test_dataset = dataset.drop(train_dataset.index)

train_features = train_dataset.copy()
test_features = test_dataset.copy()

train_labels = train_features.pop('Third exam result')
test_labels = test_features.pop('Third exam result')

# Normalize
normalizer = preprocessing.Normalization()
normalizer.adapt(np.array(train_features))

loss = keras.losses.MeanAbsoluteError()

linear_model = tf.keras.Sequential([
    normalizer,
    layers.Dense(64, activation='relu'),
    layers.Dense(64, activation='relu'),
    layers.Dense(units=1)])

linear_model.compile(optimizer=tf.optimizers.Adam(learning_rate=0.1), loss=loss)

linear_model.fit(
    train_features, train_labels,
    epochs=500,
    verbose=1,
    # Calculate validation results on 20% of the training data
    validation_split=0.2)

linear_model.evaluate(
    test_features, test_labels, verbose=1)


现在我想使用 testdata.csv 文件进行预测,该文件包含除第三次考试结果之外的所有信息,但我不知道该怎么做。

prediction_data = pd.read_csv('testdata.csv', names=column_names, sep=';')

【问题讨论】:

【参考方案1】:

你需要对测试数据集做同样的操作

prediction_data.dropna(inplace=True)

prediction_data.Country=pd.Categorical(prediction_data.Country, ['PL', 'ENG'], ordered=True)
prediction_data.Country=prediction_data.Country.cat.codes
normalizer.adapt(np.array(prediction_data)) #You need normalize test data too

predict = linear_model.predict(prediction_data)

【讨论】:

以上是关于如何使用基于 csv 数据集的模型进行预测?的主要内容,如果未能解决你的问题,请参考以下文章

python量化用时间卷积神经网络(TCN)进行股价预测

使用 Sklearn.naive_bayes.Bernoulli 的朴素贝叶斯分类器;如何使用模型进行预测?

python使用箱图法和业务规则进行异常数据处理并检查预测使用的数据特征是否有字段缺失的情况并补齐

理解fasterRCNN模型的构成,并进行训练和预测

用Dlib进行简单的人脸特征提取特征向量到CSV文件中,用KNN进行预测识别

python基于模型对测试集和训练集的预测概率结果文件可视化模型的校准曲线多个模型的校准曲线(calibration curve)