对Python数据分析的初步认知

Posted 2023-01-27 Dream_Flying2

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了对Python数据分析的初步认知相关的知识，希望对你有一定的参考价值。

一、引言

面对现实中纷繁复杂的数据信息，如何认识这些数据，如何对其进行有效的分析，是一个非常重要的问题。最近在Python的学习中，了解到NumPy库能够进行数据分析，下文简单汇总了我的学习总结和心得和大家一起分享一下。

二、NumPy

数据的组织形式--维度（将众多数据按照一定的标准进行整合，以表达某种特定的含义）

一维数据：以线性方式组织的一行数据。例如：数学中的整数集合、简单的消费列表等；

二维数据：有多个一维数据组成。例如：学生信息登记表等；

多维数据：在二维数据的基础上形成新的维度（例如：时间维度等）。例如：历年学生信息；

高维数据：仅利用最基本的二元关系展示数据间的复杂结构。例如：字典中的键值对的形式。

NumPy--科学计算基本库

简介：NumPy（Numerical Python）是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。

ndarray--一个强大的N维数组对象，包括：实际数据和描述这些数据的元数据（数据维度、数据类型等）。好处：可以去掉元素间运算所需的循环（使一维数据可以当成单个数据来操作），利于科学计算，节省运算和存储空间（一个维度中所有数据类型相同）。

在Python中的引用：

import numpy as np

在Python中生成一个ndarray数组：

a = np.array([1,2,3,4])
a = np.array(1,2,3,4)

在Python中的输出：以[ ]形式输出，其中的元素由空格分隔

[1,2,3,4]
1,2,3,4

ndarray对象的属性：

a = np.array([0,1,2,3,4],[9,8,7,6,5])

np.ndim（秩，即维度数量）

print(a.ndim)
2

np.shape（对象尺度，例如矩阵的n行m列）

print(a.shape)
(2, 5)

np.size（对象个数，即矩阵中n*m的值）

print(a.size)
10

np.dtype（对象的元素类型）

print(a.dtype)
int32

np.itemsize（对象中每个元素的大小，以字节为单位）

print(a.itemsize)
4

元素类型

整型：int8（8位字节长度的整数）、int16（16）、int32（32）、int64（64）

浮点型：float16（1位符号位，5位指数，10位尾数）、float32（1,8,23）、float64（1,11,52）

复数：complex64（实部和虚部各32位）、complex128（64）

布尔类型：bool（True 或 False）

三、NumPy的创建方法

设置创建对象的元素类型

直接在‘’dtype =‘’输入具体类型，不指定的话，NumPy将根据数据情况关联一个dtype类型

x = np.array([0,1,2,3,4],dtype = np.int32)

创建一些特定ndarray数组

生成递增数列（默认从0开始到n-1的整数）

a = np.arange(15)
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]

生成一个自定形状的全1数组和全0数组

a = np.ones((2,5))
[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]

a = np.zeros((3,2))
[[0. 0.]
 [0. 0.]
 [0. 0.]]

生成一个自定形状的全val数组

a = np.full((5,2),6)
[[6 6]
 [6 6]
 [6 6]
 [6 6]
 [6 6]]

创建一个正方的n*n单位矩阵，对角线为1，其余为0

a = np.eye(6)
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]]

np.linspace()（根据起止数据等间距地填充数组）

print(np.linspace(1,10,4))
[ 1.  4.  7. 10.]

np.concatenate()（将两个或多个数组合并成一个新的数组）

四、数组变换

对数组的变化

a = np.arange(24).reshape((2,3,4))
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]
 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]

np.reshape(shape)（不改变原数组元素个数，返回一个新设定形状的数组且原数组不变）

print(a.reshape((4,3,2)))
[[[ 0  1]
  [ 2  3]
  [ 4  5]]
 [[ 6  7]
  [ 8  9]
  [10 11]]
 [[12 13]
  [14 15]
  [16 17]]
 [[18 19]
  [20 21]
  [22 23]]]

np.resize(shape)（不改变原数组元素个数，返回一个新设定形状的数组但会修改原数组）

np.swapaxes(ax1,ax2)（将原数组中的n个维度中的两个进行对调）（维度按照从0开始对应）

print(a.swapaxes(1,2))
[[[ 0  4  8]
  [ 1  5  9]
  [ 2  6 10]
  [ 3  7 11]]
 [[12 16 20]
  [13 17 21]
  [14 18 22]
  [15 19 23]]]

np.flatten()（对原数组进行降维，返回折叠后的一个数组且原数组不变）

print(a.flatten())
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]

np.astype(new_type)(创建新的数组（原数组数据的拷贝）)

五、对ndarray数组的操作（索引（获取特定位置的元素）和切片（获取数组元素子集））

一维

a = np.array([9,8,7,6,5])

索引：a[i](i:从左往右为0到n，从右往左为-1到负无穷）

print(a[2])
7

切片：a[m:n:b](m为起始编码，n为终止编码（不含对应元素），b为步长)

print(a[1:3:1])
[8 7]

多维

a = np.arange(24).reshape((2,3,4))
[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]
 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]

索引：仿照一维的方法

print(a[1,2,3])
23

切片：‘：’表示选取一个维度为整体，‘::2’表示该维度按照步长为二进行跳跃切片

print(a[:,2,::2])
[[ 8 10]
 [20 22]]

六、有关ndarray数组的运算

理解：数组与标量之间的运算可看做为数组中每一个元素都与其进行加减乘除等运算，具体使用时可以在网上进行相应的查询。

以上是关于对Python数据分析的初步认知的主要内容，如果未能解决你的问题，请参考以下文章

Redis 系列Redis 学习——数据库的演进及 Nosql 的初步认知