pytorch入门数据预处理

Posted 啊~小 l i

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pytorch入门数据预处理相关的知识,希望对你有一定的参考价值。

处理CSV格式文件

import os

os.makedirs(os.path.join('..','data'),exist_ok=True)  # 创建一个文件夹data
data_file = os.path.join('..','data','house_tiny.csv')  # 在data下创建一个house_tiny.csv;csv每一行输一个数据,每一域使用逗号分开
with open(data_file,'w') as f:
    f.write('NomRooms,Alley,price\\n')   # 列名
    f.write('na,tom,22\\n')    # 每一列的数据样本
    f.write('2,Ada,232321\\n')
    f.write('44,dadadad,2334567\\n')

读取CSV文件

如果缺少pandas库需要使用pip install pandas

import pandas as pd
data = pd.read_csv("../data/house_tiny.csv")
print(data)

在这里插入图片描述

为了处理缺失的数据,典型的方式包括 插值 和删除(这里只用插值)

inputs,outputs = data.iloc[:,0:2],data.iloc[:,2] # 取出inputs的第一二列的所有行;取出outputs的第三列的所有行
inputs = inputs.fillna(inputs.mean()) # 将数值的空值填充其他数的均值
print(inputs)

将数值域为空的数填上其他数的均值

在这里插入图片描述

  • 字符处理
inputs = pd.get_dummies(inputs,dummy_na=True)
print(inputs)

在这里插入图片描述
对于inputs中的类别值或离散值,我们将 NaN视为一个类别!

将inputs,outputs中的所有条目(数值类型)转化为张量格式

x, y = torch.tensor(inputs.values),torch.tensor(outputs.values)
print(x)
print(y)

在这里插入图片描述

以上是关于pytorch入门数据预处理的主要内容,如果未能解决你的问题,请参考以下文章

pytorch入门数据预处理

PyTorch从入门到精通100讲-神经网络在pytorch中的应用

Pytorch 入门

PyTorch从入门到精通100讲-Pytorch Geometric 从原理到实战应用案例(附代码)

pytorch入门与实战---torchtext的应用

pytorch-geometric 从入门到不放弃 day3