Python数据分析

Posted 2022-11-25 雨宙

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python数据分析相关的知识，希望对你有一定的参考价值。

Python数据分析（一）

打卡第五天啦！！！

Numpy库（一）

介绍

功能强大的Python库，主要用于对多维数组执行计算
非常高效的用于处理数值型运算的包
通过pip install numpy安装
numpy数组和Python列表性能对比

import numpy as np
import time
t1 = time.time()
a = []
for x in range(1000000):
    a.append(x**2)
    pass
t2 = time.time()
print(t2-t1)
# 0.3191087245941162
t3 = time.time()
b = np.arange(1000000)**2
t4 = time.time()
print(t4-t3)
# 0.006983041763305664

数组的创建方式

numpy中的数组和Python中的列表的区别：
（1）一个列表中可以存储多种数据类型，而数组只能存储同种数据类型
（2）数组可以是多维的，当多维数组中的所有的数据都是数值类型的时候，相当于线性代数中的矩阵，是可以进行相互间的运算的
创建数组的四种方式：
（1）使用np.array来创建
（2）使用np.arange来创建一个区间的数组
（3）使用np.random模块来创建
（4）使用np上面的一些特殊函数来创建

import numpy as np
# 使用np.array创建数组
a1 = np.array([1,2,3,4])
print(a,type(a))
# [1 2 3] <class 'numpy.ndarray'>
# 使用np.arange创建数组
a2 = np.arange(10)
print(a2)
# [0 1 2 3 4 5 6 7 8 9]
a3 = np.arange(0,10,2)
print(a3)
# [0 2 4 6 8]
# 使用np.random.random来创建一个N行N列的数组，其中里面的值是0-1之间的随机数
a4 = np.random.random((2,2))
print(a4)
# [[0.37701883 0.5439565 ]
#  [0.23671606 0.54575213]]
# 使用np.random.randint来创建一个N行N列的数组，其中值的范围可以通过前面2个参数来指定
a5 = np.random.randint(0,9,size=(3,3))
print(a5)
# [[0 8 1]
#  [2 8 7]
#  [0 5 6]]
# 特殊函数
b = np.zeros((3,3))
print(b)
# [[0. 0. 0.]
#  [0. 0. 0.]
#  [0. 0. 0.]]
b1 = np.ones((4,4))
print(b1)
# [[1. 1. 1. 1.]
#  [1. 1. 1. 1.]
#  [1. 1. 1. 1.]
#  [1. 1. 1. 1.]]
b2 = np.full((2,3),4)
print(b2)
# [[4 4 4]
#  [4 4 4]]
b3 = np.eye(3)
print(b3)
# [[1. 0. 0.]
#  [0. 1. 0.]
#  [0. 0. 1.]]

数组的数据类型

数据类型多：基于C语言编写，C语言中有很多数据类型，直接引用过来，而且为了考虑处理海量数据的性能，针对不同的数据给不同的数据类型，来节省内存空间
具体数据类型分类

a = np.arange(9)
print(a)
print(a.dtype)
# [0 1 2 3 4 5 6 7 8]
# int32
b = np.array([1,2,3,4],dtype=np.int8)
print(b)
print(b.dtype)
# [1 2 3 4]
# int8
c = np.array([1,2,3,4],dtype=np.float16)
print(c)
print(c.dtype)
# [1. 2. 3. 4.]
# float16
class Person:
    def __init__(self,name,age):
        self.name = name
        self.age = age
        pass
d = np.array([Person('潘小雷',20),Person('鲸鱼',20)])
print(d)
print(d.dtype)
# [<__main__.Person object at 0x000001DE69ACF130>
#  <__main__.Person object at 0x000001DE69ACF460>]
# object

数据类型转换 ndarray.astype

# 类型转换
f = np.array(['a','b'],dtype='S')
print(f)
print(f.dtype)
uf = f.astype('U')
print(uf)
print(uf.dtype)
# [b'a' b'b']
# |S1
# ['a' 'b']
# <U1

多维数组及其简单操作

一般把三维以上的数组转化为二维计算
通过ndarray.ndim可以看到数组的维度

# 数组的维数
a1 = np.array([1,2,3])
print(a1.ndim) # 1
a2 = np.array([[1,2,3],[4,5,6]])
print(a2.ndim) # 2
a3 = np.array([
    [
        [1,2,3],
        [4,5,6]
    ],
    [
        [7,8,9],
        [10,11,12]
    ]
])
print(a3.ndim) # 3

通过ndarray.shape可以看到数组的形状（几行几列），shape是一个元组，里面有几个元素代表是几维数组

# 数组的维度的元组
a1 = np.array([1,2,3])
print(a1.shape) 
a2 = np.array([[1,2,3],[4,5,6]])
print(a2.shape) 
a3 = np.array([
    [
        [1,2,3],
        [4,5,6]
    ],
    [
        [7,8,9],
        [10,11,12]
    ]
])
print(a3.shape)

通过ndarray.reshape可以修改数组的形状，条件只有一个，就是修改后的形状的元素个数必须与原来的个数一致。不会修改原来数组的形状，只会将修改后的结果返回

a4 = a3.reshape((2,6))
print(a4)
# [[ 1  2  3  4  5  6]
#  [ 7  8  9 10 11 12]]
a5 = a3.reshape((12,))
a5 = a3.flatten() # 扁平化
print(a5)
# [ 1  2  3  4  5  6  7  8  9 10 11 12]

通过ndarray.size可以看到数组总共有多少个元素

count = a3.size
print(count) #12

通过ndarray.itemsize可以看到数组中每个元素所占内存的大小，单位是字节（1个字节=8位）

# 获取每一个元素所占的字节大小
itemsize = a3.itemsize
print(itemsize) #4

数组的索引和切片

如果数组是一维的，那么索引和切片就是跟python的列表是一样的。

# 一维数组索引和切片
a1 = np.arange(10)
print(a1[4])
print(a1[4:6])
print(a1[::2])
print(a1[-1])
# 4
# [4 5]
# [0 2 4 6 8]
# 9

如果是多维的(这里以二维为例)，那么在中括号中，给两个值，两个值是通过逗号分隔的，逗号前面的是行，逗号后面的是列。如果中括号中只有一个值，那么就是代表的是行。
如果是多维数组(这里以二维为例)，那么行的部分和列的部分，都是遵循一维数组的方式，可以使用整形，切片，还可以使用中括号的形式，来代表不连续的。比如a[[1,2],[3.4]]，那么返回的就是(1,3)，(2,4)的两个值。

# 多维数组索引和切片
# 通过中括号来索引和切片，在中括号中，使用逗号进行分割
a2 = np.random.randint(0,10,size=(4,6))
print(a2)
print(a2[0])
print(a2[0:2])     # 切片获取行
print(a2[[0,2,3]]) # 获取不连续的行
print(a2[1,1])     # 获取某一个数据
print(a2[[1,2],[4,5]]) # 第一行第四列 第二行第五列 不连续的数据
print(a2[1:3,4:6])  # 获取连续的数据
print(a2[:,1])     # 获取第一列数据
# [[9 8 2 7 8 1]
#  [6 1 1 1 2 7]
#  [2 3 3 6 7 6]
#  [4 0 5 8 0 2]]
# [9 8 2 7 8 1]
# [[9 8 2 7 8 1]
#  [6 1 1 1 2 7]]
# [[9 8 2 7 8 1]
#  [2 3 3 6 7 6]
#  [4 0 5 8 0 2]]
# 1
# [2 6]
# [[2 7]
#  [7 6]]
# [8 1 3 0]

布尔索引

布尔索引是通过相同数组上的True还是False进行提取的，提取的条件可有多个，用&表示且，用|表示或，如果有多个条件，每个条件要使用圆括号括起来

a2 = np.arange(24).reshape((4,6))
print(a2)
print(a2 < 10)
print(a2[a2 < 10])
print(a2[(a2 < 5) & (a2 > 1)])
# [[ 0  1  2  3  4  5]
#  [ 6  7  8  9 10 11]
#  [12 13 14 15 16 17]
#  [18 19 20 21 22 23]]
# [[ True  True  True  True  True  True]
#  [ True  True  True  True False False]
#  [False False False False False False]
#  [False False False False False False]]
# [0 1 2 3 4 5 6 7 8 9]
# [2 3 4]

数组值的替换

可以使用索引或切片来替换

a3 = np.random.randint(0,10,size=(3,5))
print(a3)
a3[1] = np.array([1,2,3,4,5])
print(a3)
# [[5 6 9 6 1]
#  [2 0 3 8 8]
#  [0 0 1 0 0]]
# [[5 6 9 6 1]
#  [1 2 3 4 5]
#  [0 0 1 0 0]]

可以使用条件索引来替换

a3[ a3 < 3] = 1
print(a3)
# [[5 6 9 6 1]
#  [1 1 3 4 5]
#  [1 1 1 1 1]]

使用where函数实现

res = np.where(a3 < 5, 0 , 1)
print(res)
# [[1 1 1 1 0]
#  [0 0 0 0 1]
#  [0 0 0 0 0]]

数组的广播机制

数组和数字直接进行运算是可以的

a1 = np.random.randint(0,5,size=(3,5))
print(a1)
print(a1*2)
# [[3 3 0 0 4]
#  [4 3 1 0 2]
#  [1 3 2 3 0]]
# [[6 6 0 0 8]
#  [8 6 2 0 4]
#  [2 6 4 6 0]]

两个shape相同的数组是可以进行运算的

a2 = np.random.randint(0,5,size=(3,5))
print(a2)
print(a1+a2)
# [[2 2 4 0 0]
#  [0 1 2 2 2]
#  [2 2 4 0 3]]
# [[5 5 4 0 4]
#  [4 4 3 2 4]
#  [3 5 6 3 3]]

如果两个shape不同的数组，想要进行运算，那么需要看他们是否满足广播原则

a3 = np.random.randint(0,5,size=(3,4))
a4 = np.random.randint(0,5,size=(3,1))
print(a4)
print(a1+a4)
# [[3]
#  [4]
#  [1]]
# [[6 6 3 3 7]
#  [8 7 5 4 6]
#  [2 4 3 4 1]]

广播原则：如果两个数组的后缘维度（即从末尾开始算起的维度）的轴长度相符或其中一方的长度为1，则认为他们是广播兼容的，广播会在缺失和（或）长度为1的维度上进行

数组形状操作

reshape、resize、flatten、ravel

reshape和resize都是重新定义形状的。但是reshape不会修改数组本身，而是将修改后的结果返回回去，而resize是直接修改数组本身的。

a1 = np.random.randint(0,10,size=(3,4))
print(a1)
# [[0 6 0 9]
#  [0 3 6 9]
#  [5 5 3 6]]
a2 = a1.reshape((2,6))
print(a2)
# [[0 6 0 9 0 3]
#  [6 9 5 5 3 6]]
print(a1)
# [[0 6 0 9]
#  [0 3 6 9]
#  [5 5 3 6]]
a1.resize((4,3))
print(a1)
# [[0 6 0]
#  [9 0 3]
#  [6 9 5]
#  [5 3 6]]

flatten和ravel都是用来将数组边成一维数组的，并且他们都不会对原数组造成修改，但是flatten返回的是一个拷贝，所以对flatten的返回值的修改不会影响到原来数组，而ravel返回的是一个View，那么对返回值的修改会影响到原来数组的值。

a2 = np.random.randint(0,10,size=(3,4))
print(a2)
# [[5 7 6 4]
#  [6 8 1 7]
#  [5 7 6 2]]
print(a2.flatten())
# [5 7 6 4 6 8 1 7 5 7 6 2]
print(a2)
# [[5 7 6 4]
#  [6 8 1 7]
#  [5 7 6 2]]
print(a2.ravel())
# [5 7 6 4 6 8 1 7 5 7 6 2]
print(a2)
# [[5 7 6 4]
#  [6 8 1 7]
#  [5 7 6 2]]
a3 = a2.flatten()
a4 = a2.ravel()
a3[0] = 100
print(a2)
# [[5 7 6 4]
#  [6 8 1 7]
#  [5 7 6 2]]
a4[0] = 100
print(a2)
# [[100   7   6   4]
#  [  6   8   1   7]
#  [  5   7   6   2]]

数组的叠加

hstack代表在水平方向叠加，如果想要叠加成功，那么他们的行必须一致。

h1 = np.random.randint(0,10,size=(3,4))
print(h1)
h2 = np.random.randint(0,10,size=(3,2))
print(h2)
# [[5 1 3 0]
#  [0 0 3 5]
#  [8 1 7 6]]
# [[8 4]
#  [5 6]
#  [1 8]]
h3 = np.hstack([h1,h2])
print(h3)
# [[5 1 3 0 8 4]
#  [0 0 3 5 5 6]
#  [8 1 7 6 1 8]]

vstack代表在垂直方向叠加，如果想要叠加成功，那么他们的列必须一致。

vstack1 = np.random.randint(0,10,size=(3,4))
print(vstack1)
vstack2 = np.random.randint(0,10,size=(2,4))
print(vstack2)
# [[3 5 0 3]
#  [2 5 7 3]
#  [6 2 8 0]]
# [[1 1 4 2]
#  [1 3 9 6]]
vstack3 = np.vstack([vstack1,vstack2])
print(vstack3)
# [[3 5 0 3]
#  [2 5 7 3]
#  [6 2 8 0]
#  [1 1 4 2]
#  [1 3 9 6]]

concatenate可以手动的指定axis参数具体在哪个方向叠加，如果axis=0，代表在垂直方向叠加，如果axis=1，代表在水平方向叠加，如果axis=None，那么会先进行叠加，再转换成1维数组。

v3 = np.concatenate([vstack1,vstack2],axis=0)
print(v3)
# [[3 5 0 3]
#  [2 5 7 3]
#  [6 2 8 0]
#  [1 1 4 2]
#  [1 3 9 6]]
h3 = np.concatenate([h1,h2],axis=1)
print(h3)
# [[5 1 3 0 8 4]
#  [0 0 3 5 5 6]
#  [8 1 7 6 1 8]]
h4 = np.concatenate([h1,h2],axis=None)
print(h4)
# [5 1 3 0 0 0 3 5 8 1 7 6 8 4 5 6 1 8]

数组切割

hsplit代表在水平方向切割，按列进行切割的。他的切割方式有两种，第一种就是直接指定平均切割成多少列，第二种就是指定切割的下标值。

hs1 = np.random.randint(0,10,size=(3,4))
print(hs1)
# [[8 4 2 1]
#  [5 6 2 1]
#  [6 5 7 0]]
np.hsplit(hs1,2)
# [array([[8, 4],
#         [5, 6],
#         [6, 5]]),
#  array([[2, 1],
#         [2, 1],
#         [7, 0]])]
np.hsplit(hs1,(1,2))
# [array([[8],
#         [5],
#         [6]]),
#  array([[4],
#         [6],
#         [5]]),
#  array([[2, 1],
#         [2, 1],
#         [7, 0]])]

vsplit代表在垂直方向切割，按行进行切割。他的切割方式跟hsplit是一样的。

vs1 = np.random.randint(0,10,size=(4,5))
print(vs1)
# [[8 7 6 7 9]
#  [1 9 2 5 9]
#  [4 9 2 2 8]
#  [8 6 4 4 1]]
np.vsplit(vs1,4)
# [array([[8, 7, 6, 7, 9]]),
#  array([[1, 9, 2, 5, 9]]),
#  array([[4, 9, 2, 2, 8]]),
#  array([[8, 6, 4, 4, 1]])]
np.vsplit(vs1,(1,3))
# [array([[8, 7, 6, 7, 9]]),
#  array([[1, 9, 2, 5, 9],
#         [4, 9, 2, 2, 8]]),
#  array([[8, 6, 4, 4, 1]])]

split/array_split是手动的指定axis参数，axis=0，代表按行进行切割，axis=1，代表按列进行切割。

np.split(hs1,4,axis=1)
# [array([[8],
#         [5],
#         [6]]),
#  array([[4],
#         [6],
#         [5]]),
#  array([[2],
#         [2],
#         [7]]),
#  array([[1],
#         [1],
#         [0]])]
np.split(vs1,4,axis=0)
# [array([[8, 7, 6, 7, 9]]),
以上是关于Python数据分析的主要内容，如果未能解决你的问题，请参考以下文章