刘二第八讲,加载数据集
Posted 不会代码是小白
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了刘二第八讲,加载数据集相关的知识,希望对你有一定的参考价值。
具体内容参考Pytorch深度学习——加载数据集(b站刘二大人)P8讲 加载数据集_努力学习的朱朱的博客-CSDN博客_diabetes.csv.gz【Pytorch深度学习实践】B站up刘二大人之Dataset&DataLoader-代码理解与实现(7/9)_nemo_0410的博客-CSDN博客
import numpy as np
import matplotlib.pyplot as plt
import torch
from torch.utils.data import Dataset, DataLoader
"""
Dataset是不能实例化的抽象类,所以只能被继承
DataLoader用来加载数据,不是抽象类,可实例化
"""
# epo_list = []
# loss_list = []
class DiabetesDataset(Dataset):
"""
DiabetesDataset类继承Dataset类
实现了几个魔术方法
重写__init__方法:
文件读取,传给xy
去xy的shape[0],即取数据的数量,也即有多少行
通过torch模块中的from_numpy函数进行数据的读取操作
返回的 x_data y_data 都是张量
重写__getitem__方法:
返回x_data的索引 和 y_data的索引
重写__len__方法:
返回数据第一位的数值
"""
def __init__(self, filepath):
xy = np.loadtxt(filepath, delimiter=',', dtype=np.float32)
self.len = xy.shape[0]
#通过拿到xy矩阵每行的第一个从而得知数据样本的个数
self.x_data = torch.from_numpy(xy[:, :-1])
self.y_data = torch.from_numpy(xy[:, [-1]])
def __getitem__(self, index):
# 通过索引将数据拿出
return self.x_data[index], self.y_data[index]
def __len__(self):
return self.len
"""
读取文件diabetes文件;返回dataset
通过DataLoader函数,传入参数:数据集,单词训练的样本数量;是否打乱数据集,多线程工作
"""
dataset = DiabetesDataset('diabetes.csv')
train_loader = DataLoader(dataset=dataset,
batch_size=32,
shuffle=True,
num_workers=2)
class Model(torch.nn.Module):
"""
继承Module类,
搭建不同层数中权值参数维度的变化。
搭建一个sigmoid函数
都是用torch库中封装好的函数
"""
def __init__(self):
super(Model, self).__init__()
self.linear1 = torch.nn.Linear(8, 6)
self.linear2 = torch.nn.Linear(6, 4)
self.linear3 = torch.nn.Linear(4, 1)
self.sigmoid = torch.nn.Sigmoid()
def forward(self, x):
"""
:param x: 特征
:return: 预测数据
"""
x = self.sigmoid(self.linear1(x))
x = self.sigmoid(self.linear2(x))
x = self.sigmoid(self.linear3(x))
return x
"""
模型实例化--model
调用BCELoss损失函数
选择SGD优化器,其中初始化模型参数,学习率设置为0.01
"""
model = Model()
criterion = torch.nn.BCELoss(reduction='mean')
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
if __name__ == '__main__':
for epoch in range(100):
for i, data in enumerate(train_loader, 0):
"""
enumerate(train_loader, 0),其中是对train_loader迭代,而后面的0则是索引,表示从
从train_loader拿到一个xy元组赋值给data
i:第几次循环;
data:【张量每个数据集,张量每个数据对应的标签】
张量每个数据集:一个列表,batch个元素;每个元素是由一条数据中的特征所构成的列表。
张量每个数据对应的标签:一个列表,batch个元素,每个元素是由数据中的标签构成的列表。
[tensor([[], [], []]), tensor([[], [], []])]
"""
# print("i", i)
# print("data", data)..
inputs, labels = data
# print(inputs.shape(0))
"""
元组的赋值方式
传出列表中的两个元素,都是张量
inputs:tensor([[], [], []])
labels:tensor([[], [], []])
"""
# print("inputs", inputs)
# print("labels", labels)
"""
将数据集传入模型,得到预测值的张量形式
通过criterion函数返回损失值--loss-张量
输出:第几次循环所有数据集,当前循环下,训练的第几组(一个batch长度为一组)的数据集,和相应的损失值的高精度格式
梯度值清零
反向传播
利用优化器进行参数更新
"""
y_pred = model(inputs)
loss = criterion(y_pred, labels)
# loss_list.append(loss.item())
# epo_list.append(epoch+i)
print(epoch, i, loss.item())
optimizer.zero_grad()
loss.backward()
optimizer.step()
# print('loss_list=',loss_list,'epo_list=',epo_list)
# plt.plot(epo_list,loss_list)
# plt.show()
以上是关于刘二第八讲,加载数据集的主要内容,如果未能解决你的问题,请参考以下文章
PyTorch学习1B站刘二大人《PyTorch深度学习实践》——线性模型(Linear Model)
Pytorch反向传播实现——up主:刘二大人《PyTorch深度学习实践》
PyTorch深度学习——逻辑斯蒂回归(分类问题)(B站刘二大人P6学习笔记)
PyTorch学习2B站刘二大人《PyTorch深度学习实践》——梯度下降算法(Gradient Descent)