2020-03-03-pytorch入门简单的预测器

Posted yokingyoking

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2020-03-03-pytorch入门简单的预测器相关的知识,希望对你有一定的参考价值。

简单的预测器

顾名思义,有一定的数据量,分为训练集和测试集(此处暂时不使用validation set),通过训练集训练出一个模型,再将测试集放进去对比其准确度。

前期准备

1.数据预处理

如星期几,天气等表示某种类型的变量,使用独热码给予一个向量。
如星期一到星期天,分别对应1000000、0100000···0000001.

而对于数据有实际意义但是由于衡量单位有所不同的几种变量,我们需要进行归一化处理,如温度、湿度等。

(归一化:每个数据减均值后再除以方差)

2.划分数据

划分训练集(training set)、测试集(test set)。

并要进行分批(batch)处理,每批相同数量的数据,每批训练完成后计算loss,BP算法,调整权重,以保证网络更加收敛。(在pytorch代码中会实现)

pytorch代码建立

1.构建神经网络

import torch
neu = torch.nn.Sequential(  # 建立一个多部操作的神经网络模型
    torch.nn.Linear(input_size,hidden_size), #  输入的那个节点(为线性的)
    torch.nn.Sigmoid(), #  设置激活函数(activate function)为sigmoid,也就是隐含层内部之间的非线性关系
    torch.nn.Linear(hidden_size,output_size) #  输出的节点,同为线性的
)
neu.parameter() #  返回神经网络的参数(所有权重W、偏置参数)

2.建立损失函数(loss function)和优化器(optimizer)

cost = torch.nn.MSELoss() #  定义损失函数为均方差,相当于torch.mean((y-y*)^2)
#  cost为一个函数指针
optimizer = torch.optim.SGD(neu.parameter(),lr=0.01) #  创建优化器并使用SGD随机梯度下降算法
                                                     #  lr为学习率,learning rate

3.对神经网络分批次进行训练

# batch_size = 128
for i in range(2000): #  循环两千次训练
    batch_loss = [] #  以list形式记录每一批的loss
    for start in range(0,len(X),batch_size): #  start是1批数据中的起始下标
        end = start + batch_size if start + batch_size < len(X) else len(X) #  end是1批数据中的结束下标,此处if else判断是针对最后一个batch的情况
        #  X是所有的特征属性数据的数组
        xx = Variable(torch.FloatTensor(X[start:end])) #  得到一个批次中的特征属性数据
        yy = Variable(torch.FloatTensor(Y[start:end])) #  得到一个批次中的目标属性数据
        #  Variable 与 tensor类型已经合并了,这里写是为了方便,写成tensor后加上tensor__grad = true 效果一致
        predict = neu(xx) #  模型预测
        loss = cost(predict,yy) #  计算损失
        optimizer.zero_grad() #  将优化器储存的参数梯度清零,也就是上一次计算留下来的梯度
        loss.backward() # 进行反向传播,计算所有新的梯度值
        optimizer.step() #  优化器向前运行一步(梯度下降),更新所有参数
        batch__loss.append(loss.data.numpy()) #  将loss压到list中
if i % 100 == 0:
    losses.append(np.mean(batch_loss)) #  每循环100次计算一次loss
    print(i,np.mean(batch_loss))

4.输入测试集与实际数据相对比


testloader = torch.utils.data.DataLoader(testset, batch_size=4, shuffle=False, num_workers=2)
#  将测试集的10000张图片划分成2500份,每份4张图
correct = 0 #  记录正确个数
total = 0 #  测试集数据总数
for data in testloader:
    images,labels = data #  以图片分类为例
    outputs = neu(Variable(images)) #  放入测试集数据
    #print outputs.data
    predicted = torch.max(outputs.data, 1) #  此处outputs.data是一个batch_size x 10的张量,将每一行的最大的那一列的值和序号各自组成一个一维张量返回,第一个是值的张量,第二个是序号的张量。
    #  具体情况根据实际情况选出预测结果
    total += labels.size(0) #  逐个计数总共多少个测试数据,虽然按理说本来就知道,这一句可省
    correct += (predicted == labels).sum()   #两个一维张量逐行对比,相同的行记为1,不同的行记为0,再利用sum(),求总和,得到相同的个数。
print('Accuracy of the network on the 10000 test images: %d %%' % (100 * correct / total))

总结

在有一定的深度学习基础知识后,pytorch框架中的很多api其实方便了我们的操作,不需要老老实实的一步一步搭建网络,但是对于底层知识一定要扎实,调用api时才知道自己每一步做的什么。

以上是关于2020-03-03-pytorch入门简单的预测器的主要内容,如果未能解决你的问题,请参考以下文章

《用Python玩转数据》项目—线性回归分析入门之波士顿房价预测

Pytorch 入门

深度学习入门案例波士顿房价预测

RNN从入门到实战GRU入门到实战——使用GRU预测股票。

小白必看的经典机器学习入门项目

搞 AI 建模预测都在用 Python,其实入门用 SPL 也不错