pytorch入门数据预处理
Posted 啊~小 l i
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pytorch入门数据预处理相关的知识,希望对你有一定的参考价值。
处理CSV格式文件
import os
os.makedirs(os.path.join('..','data'),exist_ok=True) # 创建一个文件夹data
data_file = os.path.join('..','data','house_tiny.csv') # 在data下创建一个house_tiny.csv;csv每一行输一个数据,每一域使用逗号分开
with open(data_file,'w') as f:
f.write('NomRooms,Alley,price\\n') # 列名
f.write('na,tom,22\\n') # 每一列的数据样本
f.write('2,Ada,232321\\n')
f.write('44,dadadad,2334567\\n')
读取CSV文件
如果缺少pandas库需要使用pip install pandas
import pandas as pd
data = pd.read_csv("../data/house_tiny.csv")
print(data)
为了处理缺失的数据,典型的方式包括 插值 和删除(这里只用插值)
inputs,outputs = data.iloc[:,0:2],data.iloc[:,2] # 取出inputs的第一二列的所有行;取出outputs的第三列的所有行
inputs = inputs.fillna(inputs.mean()) # 将数值的空值填充其他数的均值
print(inputs)
将数值域为空的数填上其他数的均值
- 字符处理
inputs = pd.get_dummies(inputs,dummy_na=True)
print(inputs)
对于inputs中的类别值或离散值,我们将 NaN视为一个类别!
将inputs,outputs中的所有条目(数值类型)转化为张量格式
x, y = torch.tensor(inputs.values),torch.tensor(outputs.values)
print(x)
print(y)
以上是关于pytorch入门数据预处理的主要内容,如果未能解决你的问题,请参考以下文章
PyTorch从入门到精通100讲-神经网络在pytorch中的应用