Numpy:读取本地文件及数据处理

Posted 晚风Sensei

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Numpy:读取本地文件及数据处理相关的知识,希望对你有一定的参考价值。

轴(axis)

可以理解为方向,使用0,1,2…数字表示,对于一个一维数组,只有一个0轴,二维数组有0轴和1轴,三维数组有0,1,2轴,以此类推。(可以理解为数学中的x,y,z轴)

有了轴的概念,计算更加方便,比如计算一个二维数组的平均值,必须指定是哪个方向上面的数字的平均值。

CSV文件

显示:表格状态

源文件:换行和逗号分隔行列的格式化文本,每一行数据表示一条记录。

由于csv便于展示,读取和写入,所以很多地方也是用csv的格式存储和传输中
小型的数据,为了方便教学,我们会经常操作csv格式的文件,但是操作数据库中的数据也是很容易的实现的

Numpy读取数据

numpy.loadtxt()

可以包括一下参数:

  • frame:文件、字符串或产生器,可以是gz或者bz2压缩文件
  • dtype:数据类型。csv的字符串以什么数据类型读入数组中,默认float
  • delimiter:分隔字符串的符号,默认是空格
  • skiprows:跳过前x行,一般跳过第一行表头
  • usecols:读取指定列、索引,元组类型
  • unpack:如果为True,读入属性将分别写入不同数组变量。如果为False,读入数据只写入一个数组变量。默认为False。
import numpy as np

testCsvFilePath  = '../titanic/CSV1.csv'

testData = np.loadtxt(testCsvFilePath,delimiter=",",dtype="int")
testData2 = np.loadtxt(testCsvFilePath,delimiter=",",dtype="int",unpack=True)
'''
不指定dtype类型默认使用科学计数法
delimiter=","  以逗号分隔,与csv文件中的分隔形式对应
skiprows=1     跳过第一行,一般跳过表头
unpack=True    数据按照属性存入不同数组变量,也可以理解为转置(行变为列,列变为行)

'''
print(testData)
print(testData2)

'''print result
[[     1     24  50000]
 [     2     45  56000]
 [     3     29 400000]]
[[     1      2      3]
 [    24     45     29]
 [ 50000  56000 400000]]
'''

数据处理

Numpy中的转置

转置是一种变换,在对角线方向交换数据(行变为列,列变为行),有以下几种方法:

(1)Array.transpose()

(2)Array.swapaxes(1,0) (交换轴)

(3)Array.T

t1 = np.loadtxt(testCsvFilePath,delimiter=",",dtype="int")
print(t1.transpose())
print(t1.T)
print(t1.swapaxes(1,0))

'''print result 
[[     1      2      3]
 [    24     45     29]
 [ 50000  56000 400000]]
[[     1      2      3]
 [    24     45     29]
 [ 50000  56000 400000]]
[[     1      2      3]
 [    24     45     29]
 [ 50000  56000 400000]]

'''

取行数据

(1)取一行数据

print(t1[num])
# t1是二维数组,取一个索引值即可

(2)取连续的多行数据

print(t1[num1:num2])
# 使用切片,取索引值为num1到(num2-1)之间的行

(3)取不连续的多行数据

print(t1[ [2,4,6] ])
# t1[ indexList ] 取索引值为indexList列表中的行

取列数据

(1)取一列数据

print(t1[:,num])
# 使用冒号,num表示取列的索引值

(2)取连续的多列数据

print(t1[:,num1:num2])
# 取索引值为num1到(num2-1)之间的列

(3)取不连续的多列数据

print(t1[ :,[2,4,6] ])
# 取索引值为2,4,6的列

取固定区域数据

根据坐标取值

data_1 = t1[2,4] # t1[num1,num2] 取行为num1,列为num2的数据print(t1[[0,1,2],[2,0,1]]) # 取坐标为(0,2)(1,0)(2,1)三个点

区域取值

print(t1[0:2,0:2]) # 第0行到第1行,第0列到第1列的交叉处的数据
import numpy as np

条件判断修改

# print(a1<40)
# 对数组使用条件判断,即对数组中的所有数据进行条件判断,若符合条件则赋值为True,不符合赋值为False
print(a1[a1<40])

a1[ a1<40 ] = 20 # 讲a1数组中符合a1<40的数据赋值为20
print(a1)

where三元运算符

# np.where(判断语句,data1,data2)
# 若数局符合判断条件,赋值为data1,否则赋值为data2
print(np.where(a2<30,0,30))

裁剪

# array.clip(data1,data2) 将array中小于data1的数据赋值为data1,大于data2的数值赋值为data2
print(b1.clip(10,200))

获取最大值最小值的位置

# 获取最大值最小值的位置
res1 = np.argmax(c1,axis=0)
# 返回一个列表,里面是每一列的最大值位置
res2 = np.argmin(c1,axis=1)
# 返回一个列表,里面是每一行的最小值位置
print(res1)
print(res2)

创建全为0的数组

# np.zeros( (a,b) ) a行b列的数组
zeroArray = np.zeros( (3,4) )
zeroArray = zeroArray.astype(int)
print(zeroArray)

创建全为1的数组

# np.ones( (a,b) ) a行b列的数组
oneArray = np.ones( (3,4) ).astype(int)
print(oneArray)

创建对角线为1的方阵

# 创建一个对角线为1的正方形数组
# np.eye(num) 边长为num,对角线为1,其他全为0的方阵
print(np.eye(5).astype(int))

水平拼接

# np.hstack( (array1,array2) )
print(np.hstack((a1,a2)))

竖直拼接

# np.vstack( (array1,array2) )
print(np.vstack((a1,a2)))

行交换

b1[[1,2],:] = b1[[2,1],:]
# 交换索引值为1和2的行数据
print(b1)

列交换

b2[:,[0,1]] = b2[:,[1,0]]
# 交换索引值为0和1的列数据
print(b2)

numpy中的nan和inf

  • nan(not a number):表示不是一个数字。当我们读取本地文件的数据为float类型时,如果有缺失,就会出现nan,活着做了一个不合适的计算的时候(如无穷大减去无穷大)
  • inf(infinity):表示正无穷,-inf表示负无穷。当一个数字除以0时,python中会报错,出现inf活着-inf

(一)将一个数据赋值为nan或者inf

data_1 = np.nan
data_2 = np.inf
# data_1和data_2的数据类型都是float

(二)两个nan是不相等的

np.nan == np.nan
# False

(三)检查数组中nan的个数

print(np.isnan(array_1))
# 将array_1判断是否为nan,并进行bool类型的赋值
print(np.count_nonzero(np.isnan(array_1)))
# np.count_nonzero()返回数组中判断为True的数据个数

(四)出现nan时,为了防止影响均值,会将nan替换成均值,活着直接删除缺失值的一行

numpy常用统计函数

  • 求和:array.sum(axis=None)
  • 均值:array.mean(axis=None)
  • 中值:np.median(array,axis=None)
  • 最大值/最小值:array.max(axis=None) / array.min(axis=None)
  • 极差:np.ptp(array,axis=None)
  • 标准差(平均值分散程度):array.std(axis=None)

案例:将数组中的nan替换为行或列的均值

import numpy as np


def fillNaNwithMeanValue(array_1):
    '''
    将array中的nan替换为每一列的均值
    :param array_1: 未处理数组
    :return: array_1 处理后数组
    '''

    for i in range(array_1.shape[1]): #a1.shape[1]为a1的列数
        colItem = array_1[:,i] # colItem为当前这一列
        nanNum = np.count_nonzero(colItem!=colItem)
        if nanNum != 0:
            colNoNaN = colItem[colItem==colItem] # 去除nan的一列
            # print(colNoNaN)
            colItem[colItem!=colItem] = colNoNaN.mean()
            # print(colItem.mean())

    return array_1


a1 = np.array([
    [1,2,3,0],
    [5,0,7,8],
    [9,10,11,0]
]).astype(float) #nan为float类型,指定原数组为float类型

a1[a1==0] = np.nan
# print(a1)

print(fillNaNwithMeanValue(a1))


以上是关于Numpy:读取本地文件及数据处理的主要内容,如果未能解决你的问题,请参考以下文章

04-numpy读取本地数据和索引

《Python机器学习及实践》----无监督学习之数据聚类

《Python机器学习及实践》----无监督学习之数据聚类

Android主流视频播放及缓存实现原理调研

Python本地数据(文件及文件夹)读写的代码架构

Python本地数据(文件及文件夹)读写的代码架构